昇思MindSpore技术公开课大模型专题课程即将为大家带来第十讲——MoE。
2023年末,Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b,该模型把开放模型的性能带到了一个新高度,并在许多基准测试上表现优于 GPT-3.5。Mixtral模型把MoE(mixture of experts) 结构的稀疏大模型再次带到主流大模型的视野当中,那么MoE结构是什么样的?相较于传统Transformer稠密结构有哪些优势?本节公开课将带领大家全面学习MoE的相关内容,并使用MindSpore进行演示。

 

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐