首页 > 自考资讯 > 高考百科

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

小条 2024-10-07

奥飞寺云重

公众号QbitAI

远翔XVERSE发布中国最大的教育部开源模型:

对于XVERSE-MoE-A36B,该模型总参数为255B,激活参数为36B,较100B模型实现了性能的“跨级”跳跃。

同时,训练时间减少了30%,推理性能提高了100%,每个代币的成本也显着降低。

在多次可靠的评估中,远翔MoE的有效性显着超过了许多类似模型的有效性。

包括国产1000亿MoE模型Skywork-MoE、传统MoE过载Mixtral-8x22B、3140亿参数MoE开源模型Grok-1-A86B等。

869b965b380444be913e150cd9b2a77c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=lr4PQIpd3dFGqR%2F7hHibdA9NjWk%3DMoE(Mixture of Experts)是业界最先进的混合专家模型架构,将多个细分专家模型组合成一个超级模型,打破了传统缩放定律的限制,增加了模型规模的扩展。训练和推理的计算成本不会显着增加,并且模型性能得到最大化。

为此,业界领先的模型包括Google Gemini-1.5、OpenAI的GPT-4、马斯克的xAI公司的Grok等大型模型都采用了MoE。

值得注意的是,远翔的“高性能全家桶”系列全部开源,并且无条件免费商用,因此很多中小企业、研究人员和开发者可以根据自己的需求进行选择。

8badf1f2998b4029864c090c917db6cf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=tK%2FQUB5x9ChH4bC5YfsFh54BGjE%3D

中国最大MoE开源模型

今年4月,远翔推出了XVERSE-MoE-A4.2B,与传统MoE(如Mixtral 8x7B)不同,它的粒度更细,使每个专家的大小与标准FFN相当。专家设计。每个专家的大小仅为标准FFN 的四分之一,从而提高了模型的灵活性和性能。专家也分为两类:共享专家和非共享专家。

共享专家在计算期间保持活动状态,而非共享专家则根据需要有选择地激活。这种设计有助于将公共知识压缩为共享专家参数,并减少非共享专家参数之间的知识冗余。

bd3fbaa85d5b48e9ac4acbdaa4a0c3b0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=WXO1NKLCKymRqcXM9eCpNo30Et4%3D 在MoE 效率和效果方面不断创新,现已推出XVERSE-MoE-A36B。

(1)效率

MoE架构和4D拓扑设计:MoE架构的主要特点是其多学科性。由于专家之间需要交换大量信息,沟通负担变得异常沉重。为了解决这个问题,我们采用了4D拓扑架构,平衡通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径,提高了整体计算效率。

专家路由和预丢弃策略:MoE 的另一个功能是“专家路由机制”。这需要分配不同的输入并丢弃一些超出专家计算能力的冗余数据。为此,团队设计了预丢弃策略,减少不必要的计算和传输。同时,在计算过程中实现了高效的算子融合,进一步提升了模型训练性能。

通信和计算重叠:MoE架构需要专家之间进行大量通信,这会影响整体计算效率。为了实现这一目标,团队设计了“多维通信与计算重叠”机制。这意味着在参数通信期间,最大百分比的计算任务是并行执行的,从而减少通信延迟。

(2) 有效性

专家权重:MoE的专家总数为N。每个代币选择前K名专家参与后续计算。由于专家能力的限制,每个代币实际选择的专家数量为M(M=KN)。选定的专家完成计算后,每个代币的计算结果将通过加权平均值进行汇总。这里的问题是如何设定专家的权重,这将通过比较实验来选择。

根据对比实验的结果,我们选择实验2的设置进行正式实验。

10月初,源翔与腾讯音乐联合推出lyraXVERSE加速大模型,利用该技术全面升级音乐助手“AI小琴”的问答、聊天和创作功能,赋予她高情商和智商,为用户提供个性化的音乐体验。更深入、更贴心的音乐互动体验。

2d7483ec55a34df28ba8f950fd8cb811~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=izAi%2BhxJrPYzAdXaeS8eg%2B4gIqo%3D 远翔大模特持续与QQ音乐、虎牙直播、全民卡拉OK、腾讯云等合作探索应用,打造文化、娱乐、旅游、金融等领域创新前沿的用户体验。已经创造了它。

2792e958e4a34e579d23c0e2304912cf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728909901&x-signature=yfmf5KRj6cYCrUm5WPLEHgQQ2mA%3D—完—

量子位QbitAI·今日头条

关注我们,第一时间了解前沿技术

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

猜你喜欢