遥想今年年初的时候,Deepseek在大模型领域丢了几个重磅炸弹。
一个混合精度训练(后期会讨论),另外一个是混合专家模型。混合专家模型(Mixture of Experts, MoE)
混合专家模型怎么工作的?
假如我有一家公司,需要处理各种不同类型的问题(比如数学、翻译、写诗、编程)。
如果你雇一个“全才”,他虽然什么都会。
但效率不高,反应慢。
所以我就会有点爆炸,虽然“全才”很努力的工作也会加班。
但是公司的水、电、纸的支出也会增加。
于是我决定进行改革:
把公司分成很多个小专家组:
有一个数学专家,专攻算术;
有一个语言专家,专攻翻译;
有一个代码专家,专攻编程
……
每次来活了之后,
先由一个叫“路由器”(Router/Gate) 的小秘书先判断:“这题该给哪个专家?”
然后只叫醒1~2个最合适的专家去干活,
其他专家继续“睡觉”(不耗算力)。
这样我好像雇佣了更多员工,多了几位专家和负责分发任务的小秘书?
是的没错!**MoE 虽然省电但费内存(相比同规模通用大模型)。
由于小秘书的判断水准非常非常重要!!!
所以训练难,且调输出容易飘!
学有余力的小伙伴可以学习下更专业的解释:
传送门:>>> 混合专家模型 (MoE) 详解 <<<
在Huggingface找MoE模型
-
在左侧筛选栏,选Other; -
下拉到底部,看到Misc这个框,选 Mixture of Experts, MoE; -
就能筛选出混合专家模型了~
推荐几个好用的MoE模型
|
|
|
|
|
|---|---|---|---|
| Mixtral-8x7B |
|
|
|
| DeepSeek-MoE |
|
|
|
| OLMoE-1B-7B |
|
|
|
| Switch Transformers |
|
|
|
| Qwen2-MoE |
|
|
|
如果你想加速Python学习,获得专业的指导,30天学会一门技能!
欢迎参加麦叔Python实战训练营,入门营,机器学习营,办公自动化营同步开放。
原文链接:https://www.zsiss.com/9028.html,转载请注明出处。

评论0