奥飞寺云重
公众号QbitAI
远翔XVERSE发布中国最大的教育部开源模型:
对于XVERSE-MoE-A36B,该模型总参数为255B,激活参数为36B,较100B模型实现了性能的“跨级”跳跃。
同时,训练时间减少了30%,推理性能提高了100%,每个代币的成本也显着降低。
在多次可靠的评估中,远翔MoE的有效性显着超过了许多类似模型的有效性。
包括国产1000亿MoE模型Skywork-MoE、传统MoE过载Mixtral-8x22B、3140亿参数MoE开源模型Grok-1-A86B等。
MoE(Mixture of Experts)是业界最先进的混合专家模型架构,将多个细分专家模型组合成一个超级模型,打破了传统缩放定律的限制,增加了模型规模的扩展。训练和推理的计算成本不会显着增加,并且模型性能得到最大化。
为此,业界领先的模型包括Google Gemini-1.5、OpenAI的GPT-4、马斯克的xAI公司的Grok等大型模型都采用了MoE。
值得注意的是,远翔的“高性能全家桶”系列全部开源,并且无条件免费商用,因此很多中小企业、研究人员和开发者可以根据自己的需求进行选择。
中国最大MoE开源模型
今年4月,远翔推出了XVERSE-MoE-A4.2B,与传统MoE(如Mixtral 8x7B)不同,它的粒度更细,使每个专家的大小与标准FFN相当。专家设计。每个专家的大小仅为标准FFN 的四分之一,从而提高了模型的灵活性和性能。专家也分为两类:共享专家和非共享专家。
共享专家在计算期间保持活动状态,而非共享专家则根据需要有选择地激活。这种设计有助于将公共知识压缩为共享专家参数,并减少非共享专家参数之间的知识冗余。
在MoE 效率和效果方面不断创新,现已推出XVERSE-MoE-A36B。
(1)效率
MoE架构和4D拓扑设计:MoE架构的主要特点是其多学科性。由于专家之间需要交换大量信息,沟通负担变得异常沉重。为了解决这个问题,我们采用了4D拓扑架构,平衡通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径,提高了整体计算效率。
专家路由和预丢弃策略:MoE 的另一个功能是“专家路由机制”。这需要分配不同的输入并丢弃一些超出专家计算能力的冗余数据。为此,团队设计了预丢弃策略,减少不必要的计算和传输。同时,在计算过程中实现了高效的算子融合,进一步提升了模型训练性能。
通信和计算重叠:MoE架构需要专家之间进行大量通信,这会影响整体计算效率。为了实现这一目标,团队设计了“多维通信与计算重叠”机制。这意味着在参数通信期间,最大百分比的计算任务是并行执行的,从而减少通信延迟。
(2) 有效性
专家权重:MoE的专家总数为N。每个代币选择前K名专家参与后续计算。由于专家能力的限制,每个代币实际选择的专家数量为M(M=KN)。选定的专家完成计算后,每个代币的计算结果将通过加权平均值进行汇总。这里的问题是如何设定专家的权重,这将通过比较实验来选择。
根据对比实验的结果,我们选择实验2的设置进行正式实验。
10月初,源翔与腾讯音乐联合推出lyraXVERSE加速大模型,利用该技术全面升级音乐助手“AI小琴”的问答、聊天和创作功能,赋予她高情商和智商,为用户提供个性化的音乐体验。更深入、更贴心的音乐互动体验。
远翔大模特持续与QQ音乐、虎牙直播、全民卡拉OK、腾讯云等合作探索应用,打造文化、娱乐、旅游、金融等领域创新前沿的用户体验。已经创造了它。
—完—
量子位QbitAI·今日头条
关注我们,第一时间了解前沿技术
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。