首页 > 自考资讯 > 高考百科

「必读」一文浅谈「混合专家模型」(MoE)(混合模型英文)

小条 2024-10-07

第01部分

GPT-4结构的“小道消息”

关于GPT-4架构信息,有如下传闻: GPT-4 是一个混合专家模型(MoE),由16 个子模块组成。 MoE 的16 个子模块据说每个都有1110 亿个参数(作为参考,GPT-3 有1750 亿个参数)。

虽然不能c806460cecf74de4a45f24b39900e5ab~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=CUNuNlbEi6SjuBaWCffm4gkppns%3D100% 确定,但GPT-4 可能是由MoE 组成的集群。

b5b466019ef548d2b2595f14b545c4de~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=BSPKwavpPMUQ5Q3Cr0zfrq1SFLw%3D来源:https://www.reddit.com/r/mlscaling/comments/14wcy7m/gpt4s_details_are_leaked/

MoE架构:模型使用16个专家模型,每个专家模型的MLP层大约有111B个参数。对于每个前向计算,都会路由其中两个专家模型进行计算。路由算法:我们使用非常简单的路由算法来选择转发专家。参数总数:Attention层参数是共享的,共享参数数量约为550亿个。因此,参数总量为111B * 16 + 55B 1800B,即1.8万亿个参数。推理成本:每次代币生成需要111B * 2 + 55B 280B 个参数,浮点运算量约为560 TFLOPs。与非MoE 结构的密集模型相比,成本(每个代币的生成)显着降低。需要1.8万亿个参数,计算量为3700 TFLOPS)。第02部分

MoE结构简述

专家混合(MoE) 的概念并不是最近出现的,事实上它是一项已经存在30 多年的技术,并且至今仍被广泛使用。 (请参阅下面的生成ChatGPT)

MoE模型是一种机器学习架构,它结合了多个“专家”网络来提高整体模型性能和效率。

MoE模型的核心思想是将一个复杂的任务分解为多个子任务,并用不同的专家网络(即小规模模型)来处理它们。这些专家网络通常是特定类型的神经网络,例如全连接层或卷积层。

MoE 模型通常由以下主要组件组成:

门控网络:这是MoE 模型的关键组成部分。门控机制负责确定哪个专家处理每个输入数据。根据输入数据特征动态地将任务分配给不同的专家,以优化跨模型的训练和预测效果。专家网络:这些是模型中实际处理数据的部分。每个专家网络都经过训练来处理特定类型的数据或任务。在MoE模型中,可以有任意数量的专家,每个专家都可以是一个独立的神经网络。聚合层(组合层):聚合层的功能是整合来自不同专家网络的输出。根据门控机制的分配和每个专家的输出,聚合层综合最终输出。 MoE模型的优势在于其灵活性和可扩展性。专家网络的数量和类型可以动态调整,使MoE模型能够有效处理大型且复杂的数据集。此外,MoE模型还可以通过并行处理不同的专家网络来提高计算效率。

在现实应用中,MoE模型通常用于处理需要大量计算资源的任务,例如语言模型、图像识别和复杂的预测问题。通过将大问题分解为更小、更易于管理的子问题,MoE 模型可以提供更高效、更准确的解决方案。

第03部分

略读有关教育部结构的论文

专家组合

关于教育部结构的论文

1. 本地专家的自适应混合,神经计算'1991

2. 极其庞大的神经网络: 稀疏门控混合专家层,ICLR'17

3. GShard: 通过条件计算和自动分片扩展大型模型,ICLR'21

4. 将Transformers: 缩放切换到具有简单高效稀疏性的万亿参数模型,JMLR'22

5. GLaM: 专家混合的语言模型的高效扩展,2021

6. 更广泛,而不是更深,AAAI'22

7. MOEBERT:从BERT 到具有基于重要性的适应的专家混合,NAACL'22

论文3 GShard是第一个将MoE思想扩展到Transformer的工作,但本文的亮点是提出了一个GShard框架,可以轻松地在MoE结构上进行数据并行和模型并行。

7794a1c279184a6dbd4875e481ff493d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=1VLFGTT5Anc6K4DtwaSGNMnOt7s%3D 我们可以重点关注本文提出的MoE结构。具体方法是用位置MoE 层替换Transformer 编码器和解码器中的所有其他FFN 层,并添加分配器(门控)。使用顶部2 个门网络。这意味着不同的代币会同时发送给最多两名专家。

本文提到了许多其他设计。

专家平衡能力:强制每个专家处理的代币数量保持在一定范围内。本地分组调度:通过将所有令牌分组来实现并行计算。辅助损失:也是为了缓解“赢家通吃”的问题。随机路由:在顶两门设计下,两位专家如何更有效地执行路由? Paper 4 Switch Transformer 的亮点在于它简化了MoE 路由算法,将每个FFN 层激活的专家数量从多个变为一个,提高了计算效率,并将语言模型中的参数量减少到1.6 个扩展到.兆。

9c872b0d90a14738b6a8eb7b2a6ba40c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=sjkfa%2FjWAcT9Gw%2BPAadoQRqiDXQ%3D 论文5 GLaM 是Google 在2021 年推出的一个非常大的模型,比GPT-3 大三倍,但由于使用了稀疏MoE 设计,训练成本仅为GPT-3 的一小部分。 3.2009 年在NLP 任务上优于GPT-3。

cd1f613c3fdb40fb95b94bc8652c98a9~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=AxFc7byzNz6Y%2BGf9R%2B%2F2sQ6Zesk%3D 上面三篇文章(GShard、Switch-Transformer、GLaM)都想用MoE把他们的模型做得尽可能大,大到一般人买不起(经常动用几百个专家。 )。

然而,更人性化的论文6 和7 描述了如何使用MoE 来压缩模型并提高效率。

第04部分

MistralAI开源全球首个基于混合专业知识的大型模型Mistral-8x7B-MoE

MistralAI 是一家法国人工智能初创公司,只有20 多名员工,是历史上发展最快的开源公司。

01

Mistral AI 于6 月发布。 7页的PPT获得了欧洲历史上最大的种子轮融资。

02

9月,Mistral 7B发布,号称是当时最强大的70亿参数开源模型。

03

12 月8 日,发布了类似GPT-4 架构的Mistral 8x7B 开源版本。

Mistral-7B8-MoE 是一种高质量的稀疏专家混合模型,混合了8 个具有70 亿个参数的大型模型。

其主要特点是:

它可以非常优雅地处理32K 的上下文数据,而且除了英语之外,在法语、德语、意大利语和西班牙语中也表现良好。指令调整后的MT 替补得分为8.3 分。 GPT-3.5 为8.32,LLaMA2 70B 为6.86);7e144e36030f46f29ef029efd24268d1~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=Ks4qiZLcJ%2BYs0HqE2UU99JE5pqQ%3D 从上图可以看出,该模型的预训练结果大小为86.99 GB,这意味着单个专家网络约为10.9 GB。 GB比之前开源的Mistral-7B(约15GB)小很多。

该模型参数的具体配置如下:

它由8位专家组成,每个令牌在输入时由2位专家处理。词汇量为32000,与LLaMA2模型相同。模型尺寸为4096,但文件夹名称为32K序列长度。这应该是一个4K 专家网络,其中8 个可以一起处理32K 输入。14bdad778a8a4686813e9105ff95d099~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=Xk1aVSWBCBsVyx839SRAvybWxDE%3DMistral-7B8-MoE是第一个被证明有效的开源MoE LLM,并且与早期在开关变压器、GLaM等方面的工作相比,Mistral-7B8-MoE被证明是可以实现的并且是有效的。比相同激活值的Dense 模型要好得多。

与Switch-T和GLaM不同,Mistral-7B8-MoE没有采用“三明治”解决方案(MoE层频率=0.5),而是使用原生SMoE解决方案,其中每个传输层都是一个MoE层。

目前,许多开源建模平台都在发布Mistral-7B8-MoE。有兴趣的读者可以亲自尝试一下它的性能。

85d29a6a997a41aca81b7ac63aa8a0a2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=uQgAEGSXvBFHwK0na%2B2c0Hf3juU%3D 朗史密斯:https://smith.langchain.com/

6740427b845a44e5952c8a8ff0344ef5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=awP7Oleg2%2BCiclmgP5PakODWPl8%3DPerplexity 实验室:https://labs.perplexity.ai/

537ef3387f1d48cfb1353e35ba5faa4c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=S%2FIRr6rIJJi%2BfEGIbO8dhZ1Xz74%3D 开放路由器:https://openrouter.ai/models/fireworks/mixtral-8x7b-fw-chat

第05部分

Mistral-7B-MoE 评估结果

使用各种评估数据集对Mistral-7B8-MoE的评估结果如下。

b3adf8306c5b4bc6a3f5c0cb5f999b84~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=GHygcCsH3cOB4fpRWdBpmOZ15VI%3D从这一点来看,Mistral-7B8-MoE与GPT-3.5和LLaMA2-70B处于同一水平。

还有Mistral-7B8-MoE和LLaMA系列之间更详细的比较。

e2a1c2b2df044f9bb8f9656def4f3638~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=aPpIGntuk7egeWcxTrxFHQmvNwE%3D 我们可以看到Mistral-7B8-MoE模型各方面指标都非常好,几乎与LLaMA2-70B处于同一水平,但每次只工作120亿个参数,因此官方宣布成本远低于LLaMA2-70B,推理速度是LLaMA2-70B的6倍。

Mistral-7B8-MoE的另一个特点是其出色的多语言支持。目前,法语、西班牙语、德语和意大利语的表现非常好。

8b928bae4f6b4c68815e6fa81d29fc2f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=JEMJjIdlAzaE7jHs1Ss4l%2BX1vI8%3D第06部分

Mistral 介质比混合专家模型更强大

除了Mistral-7B8-MoE之外,MistralAI还开放了其首个平台服务测试版——La Plateforme。

该平台是MistralAI官方提供的大规模模型服务,包含MistralAI当前的多种大规模模型接口,主要是命令优化模型(即适合交互或命令型任务的模型而不是基础模型)。型号)包括在内。

目前,官方提供了三种型号:Mistral-tiny、Mistral-small 和Mistral-medium。

Mistral-tiny:升级后的基础模型Mistral 7B Instruct v0.2 将上下文长度从8K 增加到32K,并改进了微调。 MT 替补得分从6.84 提高到7.61。 Mistral-small:Mistral 8x7B Instruct v0.1,性能等于或超过GPT-3.5,支持多种语言。 Mistral-medium:所有指标均优于GPT-3.5,并且还支持多种语言。所有端点的上下文大小都是32K。下图是几种模型的比较。

96829acdba6e49ad99e8ff4d559d70ef~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=owTdxzx7IgL3b6x4QWna4%2BmBZU8%3D 事实证明,这款Mistral-medium 是比混合专家模型Mistral-7B8-MoE 更强大的模型。所有评估均优于当前的Hybrid Expert 模型,并且在MT-Bench 上也获得了8.6 的分数,已经接近GPT-4,并领先于Claude 和GPT-3.5。

36b43ad9a15c4aa8af411db9d756bdb8~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909867&x-signature=TdxIjJYP3jmNr%2BuExBg5b41uibY%3D 从命名角度来看,Mistral-medium 是目前MistralAI 质量最高的模型,但按照惯例,我们将来应该会看到Large 模型。预计大型模型的有效性将接近GPT-4。

除了文本生成模型之外,Mistral 还提供了具有1024 个嵌入维度的嵌入模型Mistral-embed,并在MTEB 上取得了高达55.26 的搜索分数。

目前,任何人都可以注册并使用Mistral 的API。

参考:

https://zhuanlan.zhihu.com/p/542465517

https://zhuanlan.zhihu.com/p/670007189

https://www.nytimes.com/2023/12/10/technology/mistral-ai-funding.html

https://twitter.com/DrJimFan/status/1733864317227786622

https://github.com/open-compass/MixtralKit/blob/main/README_zh-CN.md

https://www.datalearner.com/blog/1051702307667324

https://mistral.ai/news/mixtral-of-experts/

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

猜你喜欢