第01部分
GPT-4结构的“小道消息”
关于GPT-4架构信息,有如下传闻: GPT-4 是一个混合专家模型(MoE),由16 个子模块组成。 MoE 的16 个子模块据说每个都有1110 亿个参数(作为参考,GPT-3 有1750 亿个参数)。
虽然不能100% 确定,但GPT-4 可能是由MoE 组成的集群。
来源:https://www.reddit.com/r/mlscaling/comments/14wcy7m/gpt4s_details_are_leaked/
MoE架构:模型使用16个专家模型,每个专家模型的MLP层大约有111B个参数。对于每个前向计算,都会路由其中两个专家模型进行计算。路由算法:我们使用非常简单的路由算法来选择转发专家。参数总数:Attention层参数是共享的,共享参数数量约为550亿个。因此,参数总量为111B * 16 + 55B 1800B,即1.8万亿个参数。推理成本:每次代币生成需要111B * 2 + 55B 280B 个参数,浮点运算量约为560 TFLOPs。与非MoE 结构的密集模型相比,成本(每个代币的生成)显着降低。需要1.8万亿个参数,计算量为3700 TFLOPS)。第02部分
MoE结构简述
专家混合(MoE) 的概念并不是最近出现的,事实上它是一项已经存在30 多年的技术,并且至今仍被广泛使用。 (请参阅下面的生成ChatGPT)
MoE模型是一种机器学习架构,它结合了多个“专家”网络来提高整体模型性能和效率。
MoE模型的核心思想是将一个复杂的任务分解为多个子任务,并用不同的专家网络(即小规模模型)来处理它们。这些专家网络通常是特定类型的神经网络,例如全连接层或卷积层。
MoE 模型通常由以下主要组件组成:
门控网络:这是MoE 模型的关键组成部分。门控机制负责确定哪个专家处理每个输入数据。根据输入数据特征动态地将任务分配给不同的专家,以优化跨模型的训练和预测效果。专家网络:这些是模型中实际处理数据的部分。每个专家网络都经过训练来处理特定类型的数据或任务。在MoE模型中,可以有任意数量的专家,每个专家都可以是一个独立的神经网络。聚合层(组合层):聚合层的功能是整合来自不同专家网络的输出。根据门控机制的分配和每个专家的输出,聚合层综合最终输出。 MoE模型的优势在于其灵活性和可扩展性。专家网络的数量和类型可以动态调整,使MoE模型能够有效处理大型且复杂的数据集。此外,MoE模型还可以通过并行处理不同的专家网络来提高计算效率。
在现实应用中,MoE模型通常用于处理需要大量计算资源的任务,例如语言模型、图像识别和复杂的预测问题。通过将大问题分解为更小、更易于管理的子问题,MoE 模型可以提供更高效、更准确的解决方案。
第03部分
略读有关教育部结构的论文
专家组合
关于教育部结构的论文
1. 本地专家的自适应混合,神经计算'1991
2. 极其庞大的神经网络: 稀疏门控混合专家层,ICLR'17
3. GShard: 通过条件计算和自动分片扩展大型模型,ICLR'21
4. 将Transformers: 缩放切换到具有简单高效稀疏性的万亿参数模型,JMLR'22
5. GLaM: 专家混合的语言模型的高效扩展,2021
6. 更广泛,而不是更深,AAAI'22
7. MOEBERT:从BERT 到具有基于重要性的适应的专家混合,NAACL'22
论文3 GShard是第一个将MoE思想扩展到Transformer的工作,但本文的亮点是提出了一个GShard框架,可以轻松地在MoE结构上进行数据并行和模型并行。
我们可以重点关注本文提出的MoE结构。具体方法是用位置MoE 层替换Transformer 编码器和解码器中的所有其他FFN 层,并添加分配器(门控)。使用顶部2 个门网络。这意味着不同的代币会同时发送给最多两名专家。
本文提到了许多其他设计。
专家平衡能力:强制每个专家处理的代币数量保持在一定范围内。本地分组调度:通过将所有令牌分组来实现并行计算。辅助损失:也是为了缓解“赢家通吃”的问题。随机路由:在顶两门设计下,两位专家如何更有效地执行路由? Paper 4 Switch Transformer 的亮点在于它简化了MoE 路由算法,将每个FFN 层激活的专家数量从多个变为一个,提高了计算效率,并将语言模型中的参数量减少到1.6 个扩展到.兆。
论文5 GLaM 是Google 在2021 年推出的一个非常大的模型,比GPT-3 大三倍,但由于使用了稀疏MoE 设计,训练成本仅为GPT-3 的一小部分。 3.2009 年在NLP 任务上优于GPT-3。
上面三篇文章(GShard、Switch-Transformer、GLaM)都想用MoE把他们的模型做得尽可能大,大到一般人买不起(经常动用几百个专家。 )。
然而,更人性化的论文6 和7 描述了如何使用MoE 来压缩模型并提高效率。
第04部分
MistralAI开源全球首个基于混合专业知识的大型模型Mistral-8x7B-MoE
MistralAI 是一家法国人工智能初创公司,只有20 多名员工,是历史上发展最快的开源公司。
01
Mistral AI 于6 月发布。 7页的PPT获得了欧洲历史上最大的种子轮融资。
02
9月,Mistral 7B发布,号称是当时最强大的70亿参数开源模型。
03
12 月8 日,发布了类似GPT-4 架构的Mistral 8x7B 开源版本。
Mistral-7B8-MoE 是一种高质量的稀疏专家混合模型,混合了8 个具有70 亿个参数的大型模型。
其主要特点是:
它可以非常优雅地处理32K 的上下文数据,而且除了英语之外,在法语、德语、意大利语和西班牙语中也表现良好。指令调整后的MT 替补得分为8.3 分。 GPT-3.5 为8.32,LLaMA2 70B 为6.86); 从上图可以看出,该模型的预训练结果大小为86.99 GB,这意味着单个专家网络约为10.9 GB。 GB比之前开源的Mistral-7B(约15GB)小很多。
该模型参数的具体配置如下:
它由8位专家组成,每个令牌在输入时由2位专家处理。词汇量为32000,与LLaMA2模型相同。模型尺寸为4096,但文件夹名称为32K序列长度。这应该是一个4K 专家网络,其中8 个可以一起处理32K 输入。Mistral-7B8-MoE是第一个被证明有效的开源MoE LLM,并且与早期在开关变压器、GLaM等方面的工作相比,Mistral-7B8-MoE被证明是可以实现的并且是有效的。比相同激活值的Dense 模型要好得多。
与Switch-T和GLaM不同,Mistral-7B8-MoE没有采用“三明治”解决方案(MoE层频率=0.5),而是使用原生SMoE解决方案,其中每个传输层都是一个MoE层。
目前,许多开源建模平台都在发布Mistral-7B8-MoE。有兴趣的读者可以亲自尝试一下它的性能。
朗史密斯:https://smith.langchain.com/
Perplexity 实验室:https://labs.perplexity.ai/
开放路由器:https://openrouter.ai/models/fireworks/mixtral-8x7b-fw-chat
第05部分
Mistral-7B-MoE 评估结果
使用各种评估数据集对Mistral-7B8-MoE的评估结果如下。
从这一点来看,Mistral-7B8-MoE与GPT-3.5和LLaMA2-70B处于同一水平。
还有Mistral-7B8-MoE和LLaMA系列之间更详细的比较。
我们可以看到Mistral-7B8-MoE模型各方面指标都非常好,几乎与LLaMA2-70B处于同一水平,但每次只工作120亿个参数,因此官方宣布成本远低于LLaMA2-70B,推理速度是LLaMA2-70B的6倍。
Mistral-7B8-MoE的另一个特点是其出色的多语言支持。目前,法语、西班牙语、德语和意大利语的表现非常好。
第06部分
Mistral 介质比混合专家模型更强大
除了Mistral-7B8-MoE之外,MistralAI还开放了其首个平台服务测试版——La Plateforme。
该平台是MistralAI官方提供的大规模模型服务,包含MistralAI当前的多种大规模模型接口,主要是命令优化模型(即适合交互或命令型任务的模型而不是基础模型)。型号)包括在内。
目前,官方提供了三种型号:Mistral-tiny、Mistral-small 和Mistral-medium。
Mistral-tiny:升级后的基础模型Mistral 7B Instruct v0.2 将上下文长度从8K 增加到32K,并改进了微调。 MT 替补得分从6.84 提高到7.61。 Mistral-small:Mistral 8x7B Instruct v0.1,性能等于或超过GPT-3.5,支持多种语言。 Mistral-medium:所有指标均优于GPT-3.5,并且还支持多种语言。所有端点的上下文大小都是32K。下图是几种模型的比较。
事实证明,这款Mistral-medium 是比混合专家模型Mistral-7B8-MoE 更强大的模型。所有评估均优于当前的Hybrid Expert 模型,并且在MT-Bench 上也获得了8.6 的分数,已经接近GPT-4,并领先于Claude 和GPT-3.5。
从命名角度来看,Mistral-medium 是目前MistralAI 质量最高的模型,但按照惯例,我们将来应该会看到Large 模型。预计大型模型的有效性将接近GPT-4。
除了文本生成模型之外,Mistral 还提供了具有1024 个嵌入维度的嵌入模型Mistral-embed,并在MTEB 上取得了高达55.26 的搜索分数。
目前,任何人都可以注册并使用Mistral 的API。
参考:
https://zhuanlan.zhihu.com/p/542465517
https://zhuanlan.zhihu.com/p/670007189
https://www.nytimes.com/2023/12/10/technology/mistral-ai-funding.html
https://twitter.com/DrJimFan/status/1733864317227786622
https://github.com/open-compass/MixtralKit/blob/main/README_zh-CN.md
https://www.datalearner.com/blog/1051702307667324
https://mistral.ai/news/mixtral-of-experts/
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。