▽超能小可爱 发表于 2024-11-18 19:11:43

Grok-3模型和其他ai模型的的区别

我感觉就是Grok-3模型在次细化了注意力机制,还细分了很多子模型(专家网络),也叫做专家(Mixture-of-Experts)模式,frok—3,模型在处理问题的时候会通过一种叫做路由机制的方法,所谓的路由机制,就是一种类型规划器,将这个问题类型规划给合适的子专家网络模型,感觉这个就是注意力机制的延伸,这种专门被分配的子专家网络 一般有更适合这种该问题的筛选优先级,运算起来相对更简洁,
但是这些子专家网络,本质还是,全连接层、卷积层或递归神经网络等,一些老调重弹的东西组成的,说实话感觉就这样吧,没有迈很大的步子,主要还是砸的钱多,算力提上去了

不可磨灭的爱 发表于 2024-11-18 19:11:50

moe架构:
稀疏激活:MoE架构的一个关键特性是稀疏激活。这意味着对于任何给定的输入,只有少数专家子网络会被激活,而大多数专家保持不活跃状态。这种设计减少了计算资源的消耗,并提高了效率。
参数共享:在MoE层中,不同的专家子网络可能会有一些共享的参数,这有助于减少模型的总体参数数量,同时保持每个专家的特定能力。
训练和正则化:训练MoE模型时,需要特别注意如何处理路由机制和专家子网络的权重。通常需要采用特殊的训练策略和正则化方法来确保模型的稳定性和性能。

八极雨婷 发表于 2024-11-18 19:12:22

这些创意我五六年前就想出来了,哎,感叹这些专家也不过如此

无理取闹。 发表于 2024-11-18 19:13:15

其实黎曼猜想没有想像中那么复杂,加上已有的研究成果辅助,如果马斯克的团队没有忽悠人,足够多的算力和专家参与进去,那其实也不是意料之外的

情潮如风 发表于 2024-11-18 19:13:44

回到基本的问题,就能理解为什么改进的地方在强化子网络上。最简单的一个例子,X=a,Y=b,交换XY的值,在不引入temp的情况下,可以这样,X=X+Y,Y=X,X=X-Y。通过叠加,完成交换,结果是X=b,Y=a。同理,识别一个物体,事先并不知道它是什么,无法给予标签位置。就需要解码与编码,进行稀疏校对。解码与编码就像采用的处理方法与方法后果的影响,既复杂又相关,如何处理相关联动,在这一块貌似遇到了点阻力。

退路 发表于 2024-11-24 17:24:13

楼主,不论什么情况你一定要hold住!hold住就是胜利!
页: [1]
查看完整版本: Grok-3模型和其他ai模型的的区别