「必读」一文浅谈「混合专家模型」(MoE)（混合模型英文）

小条 2024-10-07

第01部分

GPT-4结构的“小道消息”

关于GPT-4架构信息，有如下传闻： GPT-4 是一个混合专家模型(MoE)，由16 个子模块组成。 MoE 的16 个子模块据说每个都有1110 亿个参数（作为参考，GPT-3 有1750 亿个参数）。

虽然不能 c806460cecf74de4a45f24b39900e5ab~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=CUNuNlbEi6SjuBaWCffm4gkppns%3D 100% 确定，但GPT-4 可能是由MoE 组成的集群。

b5b466019ef548d2b2595f14b545c4de~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=BSPKwavpPMUQ5Q3Cr0zfrq1SFLw%3D 来源：https://www.reddit.com/r/mlscaling/comments/14wcy7m/gpt4s_details_are_leaked/

MoE架构：模型使用16个专家模型，每个专家模型的MLP层大约有111B个参数。对于每个前向计算，都会路由其中两个专家模型进行计算。路由算法：我们使用非常简单的路由算法来选择转发专家。参数总数：Attention层参数是共享的，共享参数数量约为550亿个。因此，参数总量为111B * 16 + 55B 1800B，即1.8万亿个参数。推理成本：每次代币生成需要111B * 2 + 55B 280B 个参数，浮点运算量约为560 TFLOPs。与非MoE 结构的密集模型相比，成本（每个代币的生成）显着降低。需要1.8万亿个参数，计算量为3700 TFLOPS）。第02部分

MoE结构简述

专家混合(MoE) 的概念并不是最近出现的，事实上它是一项已经存在30 多年的技术，并且至今仍被广泛使用。（请参阅下面的生成ChatGPT）

MoE模型是一种机器学习架构，它结合了多个“专家”网络来提高整体模型性能和效率。

MoE模型的核心思想是将一个复杂的任务分解为多个子任务，并用不同的专家网络（即小规模模型）来处理它们。这些专家网络通常是特定类型的神经网络，例如全连接层或卷积层。

MoE 模型通常由以下主要组件组成：

门控网络：这是MoE 模型的关键组成部分。门控机制负责确定哪个专家处理每个输入数据。根据输入数据特征动态地将任务分配给不同的专家，以优化跨模型的训练和预测效果。专家网络：这些是模型中实际处理数据的部分。每个专家网络都经过训练来处理特定类型的数据或任务。在MoE模型中，可以有任意数量的专家，每个专家都可以是一个独立的神经网络。聚合层（组合层）：聚合层的功能是整合来自不同专家网络的输出。根据门控机制的分配和每个专家的输出，聚合层综合最终输出。 MoE模型的优势在于其灵活性和可扩展性。专家网络的数量和类型可以动态调整，使MoE模型能够有效处理大型且复杂的数据集。此外，MoE模型还可以通过并行处理不同的专家网络来提高计算效率。

在现实应用中，MoE模型通常用于处理需要大量计算资源的任务，例如语言模型、图像识别和复杂的预测问题。通过将大问题分解为更小、更易于管理的子问题，MoE 模型可以提供更高效、更准确的解决方案。

第03部分

略读有关教育部结构的论文

专家组合

关于教育部结构的论文

1. 本地专家的自适应混合，神经计算'1991

2. 极其庞大的神经网络：稀疏门控混合专家层，ICLR'17

3. GShard: 通过条件计算和自动分片扩展大型模型，ICLR'21

4. 将Transformers: 缩放切换到具有简单高效稀疏性的万亿参数模型，JMLR'22

5. GLaM: 专家混合的语言模型的高效扩展，2021

6. 更广泛，而不是更深，AAAI'22

7. MOEBERT:从BERT 到具有基于重要性的适应的专家混合，NAACL'22

论文3 GShard是第一个将MoE思想扩展到Transformer的工作，但本文的亮点是提出了一个GShard框架，可以轻松地在MoE结构上进行数据并行和模型并行。

7794a1c279184a6dbd4875e481ff493d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=1VLFGTT5Anc6K4DtwaSGNMnOt7s%3D 我们可以重点关注本文提出的MoE结构。具体方法是用位置MoE 层替换Transformer 编码器和解码器中的所有其他FFN 层，并添加分配器（门控）。使用顶部2 个门网络。这意味着不同的代币会同时发送给最多两名专家。

本文提到了许多其他设计。

专家平衡能力：强制每个专家处理的代币数量保持在一定范围内。本地分组调度：通过将所有令牌分组来实现并行计算。辅助损失：也是为了缓解“赢家通吃”的问题。随机路由：在顶两门设计下，两位专家如何更有效地执行路由？ Paper 4 Switch Transformer 的亮点在于它简化了MoE 路由算法，将每个FFN 层激活的专家数量从多个变为一个，提高了计算效率，并将语言模型中的参数量减少到1.6 个扩展到.兆。

9c872b0d90a14738b6a8eb7b2a6ba40c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=sjkfa%2FjWAcT9Gw%2BPAadoQRqiDXQ%3D 论文5 GLaM 是Google 在2021 年推出的一个非常大的模型，比GPT-3 大三倍，但由于使用了稀疏MoE 设计，训练成本仅为GPT-3 的一小部分。 3.2009 年在NLP 任务上优于GPT-3。

cd1f613c3fdb40fb95b94bc8652c98a9~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=AxFc7byzNz6Y%2BGf9R%2B%2F2sQ6Zesk%3D 上面三篇文章（GShard、Switch-Transformer、GLaM）都想用MoE把他们的模型做得尽可能大，大到一般人买不起（经常动用几百个专家。）。

然而，更人性化的论文6 和7 描述了如何使用MoE 来压缩模型并提高效率。

第04部分

MistralAI开源全球首个基于混合专业知识的大型模型Mistral-8x7B-MoE

MistralAI 是一家法国人工智能初创公司，只有20 多名员工，是历史上发展最快的开源公司。

Mistral AI 于6 月发布。 7页的PPT获得了欧洲历史上最大的种子轮融资。

9月，Mistral 7B发布，号称是当时最强大的70亿参数开源模型。

12 月8 日，发布了类似GPT-4 架构的Mistral 8x7B 开源版本。

Mistral-7B8-MoE 是一种高质量的稀疏专家混合模型，混合了8 个具有70 亿个参数的大型模型。

其主要特点是：

它可以非常优雅地处理32K 的上下文数据，而且除了英语之外，在法语、德语、意大利语和西班牙语中也表现良好。指令调整后的MT 替补得分为8.3 分。 GPT-3.5 为8.32，LLaMA2 70B 为6.86)； 7e144e36030f46f29ef029efd24268d1~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=Ks4qiZLcJ%2BYs0HqE2UU99JE5pqQ%3D 从上图可以看出，该模型的预训练结果大小为86.99 GB，这意味着单个专家网络约为10.9 GB。 GB比之前开源的Mistral-7B（约15GB）小很多。

该模型参数的具体配置如下：

它由8位专家组成，每个令牌在输入时由2位专家处理。词汇量为32000，与LLaMA2模型相同。模型尺寸为4096，但文件夹名称为32K序列长度。这应该是一个4K 专家网络，其中8 个可以一起处理32K 输入。 14bdad778a8a4686813e9105ff95d099~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=Xk1aVSWBCBsVyx839SRAvybWxDE%3D Mistral-7B8-MoE是第一个被证明有效的开源MoE LLM，并且与早期在开关变压器、GLaM等方面的工作相比，Mistral-7B8-MoE被证明是可以实现的并且是有效的。比相同激活值的Dense 模型要好得多。

与Switch-T和GLaM不同，Mistral-7B8-MoE没有采用“三明治”解决方案（MoE层频率=0.5），而是使用原生SMoE解决方案，其中每个传输层都是一个MoE层。

目前，许多开源建模平台都在发布Mistral-7B8-MoE。有兴趣的读者可以亲自尝试一下它的性能。

85d29a6a997a41aca81b7ac63aa8a0a2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=uQgAEGSXvBFHwK0na%2B2c0Hf3juU%3D 朗史密斯：https://smith.langchain.com/

6740427b845a44e5952c8a8ff0344ef5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=awP7Oleg2%2BCiclmgP5PakODWPl8%3D Perplexity 实验室：https://labs.perplexity.ai/

537ef3387f1d48cfb1353e35ba5faa4c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=S%2FIRr6rIJJi%2BfEGIbO8dhZ1Xz74%3D 开放路由器：https://openrouter.ai/models/fireworks/mixtral-8x7b-fw-chat

第05部分

Mistral-7B-MoE 评估结果

使用各种评估数据集对Mistral-7B8-MoE的评估结果如下。

b3adf8306c5b4bc6a3f5c0cb5f999b84~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=GHygcCsH3cOB4fpRWdBpmOZ15VI%3D 从这一点来看，Mistral-7B8-MoE与GPT-3.5和LLaMA2-70B处于同一水平。

还有Mistral-7B8-MoE和LLaMA系列之间更详细的比较。

e2a1c2b2df044f9bb8f9656def4f3638~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=aPpIGntuk7egeWcxTrxFHQmvNwE%3D 我们可以看到Mistral-7B8-MoE模型各方面指标都非常好，几乎与LLaMA2-70B处于同一水平，但每次只工作120亿个参数，因此官方宣布成本远低于LLaMA2-70B，推理速度是LLaMA2-70B的6倍。

Mistral-7B8-MoE的另一个特点是其出色的多语言支持。目前，法语、西班牙语、德语和意大利语的表现非常好。

8b928bae4f6b4c68815e6fa81d29fc2f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=JEMJjIdlAzaE7jHs1Ss4l%2BX1vI8%3D 第06部分

Mistral 介质比混合专家模型更强大

除了Mistral-7B8-MoE之外，MistralAI还开放了其首个平台服务测试版——La Plateforme。

该平台是MistralAI官方提供的大规模模型服务，包含MistralAI当前的多种大规模模型接口，主要是命令优化模型（即适合交互或命令型任务的模型而不是基础模型）。型号）包括在内。

目前，官方提供了三种型号：Mistral-tiny、Mistral-small 和Mistral-medium。

Mistral-tiny：升级后的基础模型Mistral 7B Instruct v0.2 将上下文长度从8K 增加到32K，并改进了微调。 MT 替补得分从6.84 提高到7.61。 Mistral-small：Mistral 8x7B Instruct v0.1，性能等于或超过GPT-3.5，支持多种语言。 Mistral-medium：所有指标均优于GPT-3.5，并且还支持多种语言。所有端点的上下文大小都是32K。下图是几种模型的比较。

96829acdba6e49ad99e8ff4d559d70ef~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=owTdxzx7IgL3b6x4QWna4%2BmBZU8%3D 事实证明，这款Mistral-medium 是比混合专家模型Mistral-7B8-MoE 更强大的模型。所有评估均优于当前的Hybrid Expert 模型，并且在MT-Bench 上也获得了8.6 的分数，已经接近GPT-4，并领先于Claude 和GPT-3.5。

36b43ad9a15c4aa8af411db9d756bdb8~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=TdxIjJYP3jmNr%2BuExBg5b41uibY%3D 从命名角度来看，Mistral-medium 是目前MistralAI 质量最高的模型，但按照惯例，我们将来应该会看到Large 模型。预计大型模型的有效性将接近GPT-4。

除了文本生成模型之外，Mistral 还提供了具有1024 个嵌入维度的嵌入模型Mistral-embed，并在MTEB 上取得了高达55.26 的搜索分数。

目前，任何人都可以注册并使用Mistral 的API。

参考：

https://zhuanlan.zhihu.com/p/542465517

https://zhuanlan.zhihu.com/p/670007189

https://www.nytimes.com/2023/12/10/technology/mistral-ai-funding.html

https://twitter.com/DrJimFan/status/1733864317227786622

https://github.com/open-compass/MixtralKit/blob/main/README_zh-CN.md

https://www.datalearner.com/blog/1051702307667324

https://mistral.ai/news/mixtral-of-experts/

「必读」一文浅谈「混合专家模型」(MoE)（混合模型英文）

猜你喜欢

「必读」一文浅谈「混合专家模型」(MoE)（混合模型英文）

混合专家模型 (MoE) 详解，混合模型分析

算法、系统和应用，三个视角全面读懂混合专家（MoE）混合模型算法

特斯拉Model3拆解：焕新Model 3，究竟有没有“换新”？

新车售33.59万元，新款特斯拉Model 3高性能全轮驱动版实车亮相（2021款特斯拉model 3 四驱高性能版）

「试」合格的标杆特斯拉Model 3（特斯拉 model 3评测）

特斯拉Model 3焕新版深度评测，真的值得买吗（特斯拉model 3换代改款时间）

妮可·基德曼16岁女儿为miumiu做开场模特！相貌气质平平也机会多（妮可基德曼有多美）

MiuMiu&nb联名新百伦

张元英巴黎时装周miumiu美图来袭（张元英走秀）