什么是MoE?专人干专事!

遥想今年年初的时候,Deepseek在大模型领域丢了几个重磅炸弹。

一个混合精度训练(后期会讨论),另外一个是混合专家模型混合专家模型(Mixture of Experts, MoE)

混合专家模型怎么工作的?

假如我有一家公司,需要处理各种不同类型的问题(比如数学、翻译、写诗、编程)。

如果你雇一个“全才”,他虽然什么都会。

但效率不高,反应慢。

所以我就会有点爆炸,虽然“全才”很努力的工作也会加班。

但是公司的水、电、纸的支出也会增加。

于是我决定进行改革:

把公司分成很多个小专家组:

有一个数学专家,专攻算术;

有一个语言专家,专攻翻译;

有一个代码专家,专攻编程

……

每次来活了之后,

先由一个叫“路由器”(Router/Gate) 的小秘书先判断:“这题该给哪个专家?”

然后只叫醒1~2个最合适的专家去干活,

其他专家继续“睡觉”(不耗算力)。

这样我好像雇佣了更多员工,多了几位专家负责分发任务的小秘书

是的没错!**MoE 虽然省电但费内存(相比同规模通用大模型)。

由于小秘书的判断水准非常非常重要!!!

所以训练难,且调输出容易飘!

学有余力的小伙伴可以学习下更专业的解释:

传送门:>>> 混合专家模型 (MoE) 详解 <<<

在Huggingface找MoE模型

  1. 在左侧筛选栏,选Other;
  2. 下拉到底部,看到Misc这个框,选Mixture of Experts, MoE
  3. 就能筛选出混合专家模型了~

推荐几个好用的MoE模型

模型名
仓库链接
参数规模
亮点
Mixtral-8x7B
mistralai/Mixtral-8x7B-Instruct-v0.1
46B 总(12B 活跃)
开源 MoE 明星,推理超快,聊天/代码一流
DeepSeek-MoE
deepseek-ai/DeepSeek-MoE-16B-Base
16B
咱们自己的产品,数学/编程强,效率高
OLMoE-1B-7B
allenai/OLMoE-1B-7B
7B 总(1B 活跃)
完全开源,研究友好,性能超同级密集模型
Switch Transformers
google/switch-base-8
1.6T(稀疏)
MoE 鼻祖,谷歌出品,适合实验
Qwen2-MoE
Qwen/Qwen2-MoE-A2.7B
14B 总(2.7B 活跃)
通义千问系列,多语言支持好

如果你想加速Python学习,获得专业的指导,30天学会一门技能!

欢迎参加麦叔Python实战训练营,入门营机器学习营办公自动化营同步开放。

原文链接:https://www.zsiss.com/9028.html,转载请注明出处。
0

评论0

请先
电子产品类企业网站模板
电子产品类企业网站模板
9分钟前 有人购买 去瞅瞅看

社交账号快速登录