什么是MoE？专人干专事！

遥想今年年初的时候，Deepseek在大模型领域丢了几个重磅炸弹。

一个混合精度训练（后期会讨论），另外一个是混合专家模型。混合专家模型（Mixture of Experts, MoE）

混合专家模型怎么工作的？

假如我有一家公司，需要处理各种不同类型的问题（比如数学、翻译、写诗、编程）。

如果你雇一个“全才”，他虽然什么都会。

但效率不高，反应慢。

所以我就会有点爆炸，虽然“全才”很努力的工作也会加班。

但是公司的水、电、纸的支出也会增加。

于是我决定进行改革：

把公司分成很多个小专家组：

有一个数学专家，专攻算术；

有一个语言专家，专攻翻译；

有一个代码专家，专攻编程

……

每次来活了之后，

先由一个叫“路由器”（Router/Gate） 的小秘书先判断：“这题该给哪个专家？”

然后只叫醒1～2个最合适的专家去干活，

其他专家继续“睡觉”（不耗算力）。

这样我好像雇佣了更多员工，多了几位专家和负责分发任务的小秘书？

是的没错！**MoE 虽然省电但费内存（相比同规模通用大模型）。

由于小秘书的判断水准非常非常重要！！！

所以训练难，且调输出容易飘！

学有余力的小伙伴可以学习下更专业的解释：

传送门：>>> 混合专家模型 (MoE) 详解 <<<

在Huggingface找MoE模型

在左侧筛选栏，选Other；
下拉到底部，看到Misc这个框，选Mixture of Experts, MoE；
就能筛选出混合专家模型了~

推荐几个好用的MoE模型

模型名	仓库链接	参数规模	亮点
Mixtral-8x7B	mistralai/Mixtral-8x7B-Instruct-v0.1	46B 总（12B 活跃）	开源 MoE 明星，推理超快，聊天/代码一流
DeepSeek-MoE	deepseek-ai/DeepSeek-MoE-16B-Base	16B	咱们自己的产品，数学/编程强，效率高
OLMoE-1B-7B	allenai/OLMoE-1B-7B	7B 总（1B 活跃）	完全开源，研究友好，性能超同级密集模型
Switch Transformers	google/switch-base-8	1.6T（稀疏）	MoE 鼻祖，谷歌出品，适合实验
Qwen2-MoE	Qwen/Qwen2-MoE-A2.7B	14B 总（2.7B 活跃）	通义千问系列，多语言支持好

如果你想加速Python学习，获得专业的指导，30天学会一门技能！

欢迎参加麦叔Python实战训练营，入门营，机器学习营，办公自动化营同步开放。

原文链接：https://www.zsiss.com/9028.html，转载请注明出处。

混合专家模型怎么工作的？

在Huggingface找MoE模型

推荐几个好用的MoE模型

评论0

在线客服

升级VIP

全屏浏览

夜间模式

返回顶部

什么是MoE？专人干专事！

混合专家模型怎么工作的？

在Huggingface找MoE模型

推荐几个好用的MoE模型

猜你喜欢

评论0

在线客服

升级VIP

全屏浏览

夜间模式

返回顶部

社交账号快速登录

社交账号快速登录

社交账号快速登录