查看: 216|回复: 5

Grok-3模型和其他ai模型的的区别

[复制链接]

5

主题

12

回帖

38

积分

新手上路

Rank: 1

积分
38
发表于 2024-11-18 19:11:43 | 显示全部楼层 |阅读模式
我感觉就是Grok-3模型在次细化了注意力机制,还细分了很多子模型(专家网络),也叫做专家(Mixture-of-Experts)模式,frok—3,模型在处理问题的时候会通过一种叫做路由机制的方法,所谓的路由机制,就是一种类型规划器,将这个问题类型规划给合适的子专家网络模型,感觉这个就是注意力机制的延伸,这种专门被分配的子专家网络 一般有更适合这种该问题的筛选优先级,运算起来相对更简洁,
但是这些子专家网络,本质还是,全连接层、卷积层或递归神经网络等,一些老调重弹的东西组成的,说实话感觉就这样吧,没有迈很大的步子,主要还是砸的钱多,算力提上去了

Grok-3模型和其他ai模型的的区别-1.jpg
回复

使用道具 举报

0

主题

15

回帖

24

积分

一年会员

Rank: 1

积分
24
发表于 2024-11-18 19:11:50 | 显示全部楼层
moe架构:
稀疏激活:MoE架构的一个关键特性是稀疏激活。这意味着对于任何给定的输入,只有少数专家子网络会被激活,而大多数专家保持不活跃状态。这种设计减少了计算资源的消耗,并提高了效率。
参数共享:在MoE层中,不同的专家子网络可能会有一些共享的参数,这有助于减少模型的总体参数数量,同时保持每个专家的特定能力。
训练和正则化:训练MoE模型时,需要特别注意如何处理路由机制和专家子网络的权重。通常需要采用特殊的训练策略和正则化方法来确保模型的稳定性和性能。
回复 支持 反对

使用道具 举报

2

主题

9

回帖

23

积分

新手上路

Rank: 1

积分
23
发表于 2024-11-18 19:12:22 | 显示全部楼层
这些创意我五六年前就想出来了,哎,感叹这些专家也不过如此
回复 支持 反对

使用道具 举报

2

主题

13

回帖

28

积分

一年会员

Rank: 1

积分
28
发表于 2024-11-18 19:13:15 | 显示全部楼层
其实黎曼猜想没有想像中那么复杂,加上已有的研究成果辅助,如果马斯克的团队没有忽悠人,足够多的算力和专家参与进去,那其实也不是意料之外的
回复 支持 反对

使用道具 举报

0

主题

14

回帖

25

积分

新手上路

Rank: 1

积分
25
发表于 2024-11-18 19:13:44 | 显示全部楼层
回到基本的问题,就能理解为什么改进的地方在强化子网络上。最简单的一个例子,X=a,Y=b,交换XY的值,在不引入temp的情况下,可以这样,X=X+Y,Y=X,X=X-Y。通过叠加,完成交换,结果是X=b,Y=a。同理,识别一个物体,事先并不知道它是什么,无法给予标签位置。就需要解码与编码,进行稀疏校对。解码与编码就像采用的处理方法与方法后果的影响,既复杂又相关,如何处理相关联动,在这一块貌似遇到了点阻力。
回复 支持 反对

使用道具 举报

3

主题

12

回帖

32

积分

一年会员

Rank: 1

积分
32
发表于 2024-11-24 17:24:13 | 显示全部楼层
楼主,不论什么情况你一定要hold住!hold住就是胜利!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

导航

运营工具导航

AI工具导航

AI

AI运营助手

帮助

帮助中心

常见问题

顶部