机心原件
作者:张谦
2024年世界人工智能大会上,很多人在展位前排起了长队,就是为了让一个人工智能大模型为他们“安排”他们的天职。
具体流程如下:首先,AI会请求你的个人照片,参考《大闹天宫》绘画风格,生成一张仙界形象的照片。然后,您将被引导进行交互式情节选择和对话会话(实际上是由AI 模型本身编译的情节),该会话根据您的选择和答案评估您的MBTI 人格类型,并据此提供信息。 “安排”天上的事情。
当然,你不仅可以在本地排队,还可以在线体验(只需扫描下面的二维码)。
这是由领先的建模初创公司Step Star与上海电影工业合作打造的AI互动体验《AI + 大闹天宫》。不过,这其实只是一个开胃菜,目的是让大家直观感受一下大模型的魅力。今年的WAIC还展示了一些大招,包括万亿参数的MoE大模型——Step-2正式版、千亿参数的多模态大模型——Step-1.5V以及大图Ta。生成模型Step-1X。
Step-2 模型于3 月份由Step Star Company 首次作为预览版推出。如今,数理逻辑、编程、中文知识、英语知识、命令跟随等功能已经进化到完全逼近GPT-4的体感。
基于该模型,Step Star进一步训练了一个大型多模态模型Step-1.5V。他们不仅具有很强的感知和视频理解能力,还可以根据图像内容进行各种高级推理,例如解决数学问题、编写代码、作诗等。
《AI + 大闹天宫》 的图像生成由另一个模型——Step-1X 完成。生成的结果表明该模型针对中国因素进行了彻底优化。此外,它还具有出色的语义协调和指令跟随能力。
Stepstar几乎是日本几家著名大型模型公司中最后亮相的公司,但它已经率先形成了“万亿参数MoE大模型+多模态大模型”的大型模型矩阵,我们正在向前迈进。并奠定了稳固的地位。奠定了“第一批大型模型创业公司”的地位。这与他们对尺度法则的坚韧以及与之相匹配的技术和资源实力是分不开的。在这篇文章中,我们将详细介绍Stepstar发布的一些模型及其背后的技术理念。
从头开始训练
步骤2 具有数万亿参数的大规模模型
将参数数量增加到超过1 万亿个可显着提高模型的数学、编程和其他推理能力。步骤2也完成了这个转变,就像我正在使用GPT-4并且不想回到GPT-3.5一样。相比之前的千亿级模型,能够解决的数理逻辑和编程问题显然比之前更加困难。几个基准的定量结果也证明了这一点。
另外,中英文功能以及命令跟随功能也得到了很大的改进。
Step-2之所以表现如此出色,一方面是其庞大的参数数量,另一方面是其学习方法。
我们知道训练MoE 模型有两种主要方法。一是升级改造。这是为了通过重用训练过程或训练模型的中间结果,以更高效、更经济的方式进一步提高模型性能。这种训练方法需要较少的计算能力,并且具有较高的训练效率,但通常会导致训练模型的上限较低。例如,在训练MoE模型时,如果通过复制和微调同一个基础模型得到多个专家模型,这些专家模型之间可能存在高度的相似性,而这种同质性会限制MoE模型的性能提升。 空间。
考虑到这些限制,Step Star 选择了另一种方法——,该方法完全独立开发并从头开始训练。虽然这种方法训练困难,消耗大量算力,但可以达到更高的模型上限。
具体来说,他们首先在MoE架构设计上做了一些创新,包括一些专家共享参数、异构专家设计等。前者确保多个专家共享某些共同特征,但同时保持每个专家的独特性。后者通过设计不同类型的专家模型来提高模型多样性和整体性能,使每个专家都能针对特定任务展现独特的优势。
基于这些创新,Step 2不仅参数总数达到万亿级别,而且每次训练或推理激活的参数数量超过了市场上最密集的模型。
此外,从头开始训练这样一个数万亿参数的模型对于系统团队来说是一个巨大的挑战。幸运的是,步星系统团队在系统建设和管理方面拥有丰富的实战经验,在我的培训过程中成功实现了6D并行、极限显存管理、全自动化运维等关键技术。并安全完成。第2步。
站在Step-2的肩膀上
Step-1.5V多模大型号
三个月前,Stepstar发布了多式联运大型模型Step-1V。近日,随着Step-2正式版的发布,这款大型多式联运模型也升级至1.5版本。
Step-1.5V主要关注多模态理解能力。与之前的版本相比,它的感知能力得到了显着提升,使其能够理解复杂的图表和流程图,准确识别物理空间中的复杂几何位置,并且在高分辨率和极端长宽比的情况下还可以处理图像。
此外,您还可以了解视频中的物体、人物、环境、视频中的整体氛围以及人物的情绪。
如上所述,Step-2对于Step-1.5V的诞生起到了重要作用。这意味着在Step 1.5V的RLHF(基于人类反馈的强化学习)训练过程中,Step 2被用作监督模型。这相当于在1.5V 步长下受到具有数万亿个参数的模型的监督。在这位老师的指导下,Step-1.5V的推理能力得到了显着提高,现在他已经能够根据图像内容执行各种高级推理任务,例如解决数学问题、编写代码、创作诗歌等。这也是OpenAI GPT-4o近期展示的能力之一,引发外界对其应用前景的期待。
多模态生成功能主要体现在新模型Step-1X上。与一些同类模型相比,它具有更好的语义调整和命令跟随能力,同时针对中国元素进行了彻底优化,更适合中国人的审美风格。
基于该模型打造的《大闹天宫》 AI交互体验,融合了图像理解、风格传递、图像生成、剧情创作等多种功能,在维度上丰富和丰富了步星领先的多模态水平。例如,在生成初始角色时,系统首先判断用户上传的照片是否满足“捏脸”要求,并以非常《大闹天宫》的语言风格灵活地提供反馈。这体现了模型的图像理解能力和大规模语言模型的能力。在大模型技术的支持下,这款游戏给玩家带来了与传统在线H5游戏完全不同的交互体验。所有互动问题、用户图像、分析结果都是模型实时学习特征后生成的,真正实现了千人万脸、无限剧情可能。
这些优越的性能与Stepstar Full Link开发的DiT模型架构密不可分(OpenAI的Sora也是DiT架构)。为了让这个模型能够被更多人使用,Step Star为Step-1X提供了三种不同的参数量(600M、2B、8B),以满足不同算力场景的设计需求。
在3月份的首次亮相活动上,步星创始人蒋大新明确表示,他认为大型车型的进化将经历三个阶段。
在第一阶段,每种模态(例如语言、视觉和听觉)独立发展,每种模态的模型侧重于学习和表征该特定模态的属性。在第二阶段,不同的模式开始融合。但这种整合并不彻底,理解和生成任务仍然是分离的,导致模型理解力强,生成弱,反之亦然。第三阶段,生成和理解融入到模型中,并与机器人充分融合,形成具身智能。随着具身智能积极探索物理世界并逐渐演化为世界模型,AGI得以实现。这也是蒋大新等人创业以来一直遵循的方针。 “万亿参数”和“多模融合”是这条路径的关键,Step-2、Step-1.5V、Step-1X都是这条路径的终点。
此外,这些节点是互连的。以OpenAI为例,他们今年早些时候发布的视频生成模型Sora,使用了OpenAI的内部工具(大概是GPT-4V)进行标注,而GPT-4V是基于GPT-4相关技术进行训练的。从目前来看,单模态模型的强大能力为多模态奠定了基础,而理解多模态则为生成奠定了基础。基于这样的模型矩阵,OpenAI 知道左脚何时踩到右脚。而Stepstar已经在中国确认了这条航线。
我们期待公司为国内大模型领域带来更多惊喜。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。