中国最大开源MoE模型，255B参数无条件免费商用，元象发布

小条 2024-10-07

奥飞寺云重

公众号QbitAI

远翔XVERSE发布中国最大的教育部开源模型：

对于XVERSE-MoE-A36B，该模型总参数为255B，激活参数为36B，较100B模型实现了性能的“跨级”跳跃。

同时，训练时间减少了30%，推理性能提高了100%，每个代币的成本也显着降低。

在多次可靠的评估中，远翔MoE的有效性显着超过了许多类似模型的有效性。

包括国产1000亿MoE模型Skywork-MoE、传统MoE过载Mixtral-8x22B、3140亿参数MoE开源模型Grok-1-A86B等。

869b965b380444be913e150cd9b2a77c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=lr4PQIpd3dFGqR%2F7hHibdA9NjWk%3D MoE（Mixture of Experts）是业界最先进的混合专家模型架构，将多个细分专家模型组合成一个超级模型，打破了传统缩放定律的限制，增加了模型规模的扩展。训练和推理的计算成本不会显着增加，并且模型性能得到最大化。

为此，业界领先的模型包括Google Gemini-1.5、OpenAI的GPT-4、马斯克的xAI公司的Grok等大型模型都采用了MoE。

值得注意的是，远翔的“高性能全家桶”系列全部开源，并且无条件免费商用，因此很多中小企业、研究人员和开发者可以根据自己的需求进行选择。

8badf1f2998b4029864c090c917db6cf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=tK%2FQUB5x9ChH4bC5YfsFh54BGjE%3D

中国最大MoE开源模型

今年4月，远翔推出了XVERSE-MoE-A4.2B，与传统MoE（如Mixtral 8x7B）不同，它的粒度更细，使每个专家的大小与标准FFN相当。专家设计。每个专家的大小仅为标准FFN 的四分之一，从而提高了模型的灵活性和性能。专家也分为两类：共享专家和非共享专家。

共享专家在计算期间保持活动状态，而非共享专家则根据需要有选择地激活。这种设计有助于将公共知识压缩为共享专家参数，并减少非共享专家参数之间的知识冗余。

bd3fbaa85d5b48e9ac4acbdaa4a0c3b0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=WXO1NKLCKymRqcXM9eCpNo30Et4%3D 在MoE 效率和效果方面不断创新，现已推出XVERSE-MoE-A36B。

(1)效率

MoE架构和4D拓扑设计：MoE架构的主要特点是其多学科性。由于专家之间需要交换大量信息，沟通负担变得异常沉重。为了解决这个问题，我们采用了4D拓扑架构，平衡通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径，提高了整体计算效率。

专家路由和预丢弃策略：MoE 的另一个功能是“专家路由机制”。这需要分配不同的输入并丢弃一些超出专家计算能力的冗余数据。为此，团队设计了预丢弃策略，减少不必要的计算和传输。同时，在计算过程中实现了高效的算子融合，进一步提升了模型训练性能。

通信和计算重叠：MoE架构需要专家之间进行大量通信，这会影响整体计算效率。为了实现这一目标，团队设计了“多维通信与计算重叠”机制。这意味着在参数通信期间，最大百分比的计算任务是并行执行的，从而减少通信延迟。

(2) 有效性

专家权重：MoE的专家总数为N。每个代币选择前K名专家参与后续计算。由于专家能力的限制，每个代币实际选择的专家数量为M（M=KN）。选定的专家完成计算后，每个代币的计算结果将通过加权平均值进行汇总。这里的问题是如何设定专家的权重，这将通过比较实验来选择。

根据对比实验的结果，我们选择实验2的设置进行正式实验。

10月初，源翔与腾讯音乐联合推出lyraXVERSE加速大模型，利用该技术全面升级音乐助手“AI小琴”的问答、聊天和创作功能，赋予她高情商和智商，为用户提供个性化的音乐体验。更深入、更贴心的音乐互动体验。

2d7483ec55a34df28ba8f950fd8cb811~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=izAi%2BhxJrPYzAdXaeS8eg%2B4gIqo%3D 远翔大模特持续与QQ音乐、虎牙直播、全民卡拉OK、腾讯云等合作探索应用，打造文化、娱乐、旅游、金融等领域创新前沿的用户体验。已经创造了它。

2792e958e4a34e579d23c0e2304912cf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=yfmf5KRj6cYCrUm5WPLEHgQQ2mA%3D —完—

量子位QbitAI·今日头条

关注我们，第一时间了解前沿技术

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

中国最大MoE开源模型

猜你喜欢

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

「必读」一文浅谈「混合专家模型」(MoE)（混合模型英文）

混合专家模型 (MoE) 详解，混合模型分析

算法、系统和应用，三个视角全面读懂混合专家（MoE）混合模型算法

特斯拉Model3拆解：焕新Model 3，究竟有没有“换新”？

新车售33.59万元，新款特斯拉Model 3高性能全轮驱动版实车亮相（2021款特斯拉model 3 四驱高性能版）

「试」合格的标杆特斯拉Model 3（特斯拉 model 3评测）

特斯拉Model 3焕新版深度评测，真的值得买吗（特斯拉model 3换代改款时间）

妮可·基德曼16岁女儿为miumiu做开场模特！相貌气质平平也机会多（妮可基德曼有多美）

MiuMiu&nb联名新百伦