编辑:我很困。
【新智元导读】全面了解多模态大语言模型,首个跟踪MLLM进展的论文集合发布。
进度跟踪链接(Awesome-MLLM,实时更新):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
近年来,大规模语言模型(LLM)的研究取得了重大进展(例如,GPT-3、LLaMa、ChatGPT、GPT-4),这些模型在多种自然语言处理(NLP)中表现出了优越的性能。 )我正在表演。
通过对大量数据的预训练,LLM获得了丰富的知识和强大的推理能力。您只需输入指令,这些模型就会解析这些指令,做出推论,并提供符合您期望的答案。
LLM 的共同特点包括:
· 执行培训期间未见过的新任务。 · 使用一些示例完成新任务。 · 通过推理链执行复杂的推理任务。 · 协调各种模型和工具来完成复杂的任务。这些功能背后有许多重要的想法和技术,包括指令调整、情境学习和思想链。
多模态大规模语言模型
虽然大规模语言模型在NLP领域取得了长足的进步,但在多模态领域相应的模型和技术探索较少,传统的视觉语言模型还存在泛化和推理能力不足等局限性。
为此,许多学者最近将注意力转向了一个新的方向:多模态大规模语言模型(MLLM)。
主要思想是利用LLM作为“大脑”,对输入的多模态信息进行整合、推理、分析和决策,从而完成人类分配的任务。
从一般人工智能发展的角度来看,MLLM比LLM向前迈进了一步,具有以下优势:
· 更符合人类认识世界的习惯。人类有多种感官并从多种方式接收信息,这些方式通常是互补和协同的。因此,使用多模态信息通常可以提高认知能力并使我们能够完成复杂的任务。
· 更强大且用户友好的界面。通过支持多模态输入,用户可以以更灵活的方式传达信息。
· 更广泛的使命支持。通常,LLM 只能完成与NLP 相关的任务,但MLLM 可以通过访问多模态来完成更多任务。
从系统设计的角度来看,MLLM可以分为两类:
· LLM 充当推理器并支持多模式输入认知推理系统。
· LLM 作为计划者/调度者/决策者多工具协作系统。
前者通常将多模态信息转换为法学硕士可以通过可训练的多模态转换接口直接接收和处理的格式。这使得法学硕士能够根据多模态信息和用户的指令进行识别和推理。
后者通常使用法学硕士作为规划者/调度者/决策者[1]。它将用户提供的复杂任务分解为更简单的子任务,并将其分配给适当的模型/工具,最后集成并输出结果。
我们聚焦MLLM背后的关键技术和实现方法,采取不同的视角,对相关研究进行了调查和总结,将MLLM分为以下几类:
· 多模态指令调优
·多模态情境学习
·多式联运思想链
· 法学硕士视觉推理
下面简单介绍一下这些职位。
多模态指令调优
多模态指令微调的基本方法是使用集成模板来集成各类数据,以指令的形式描述任务需求,形成多模态指令数据,然后将这些数据集成到使用中来对MLLM进行微调。
训练和测试时指令格式的一致性使得LLM能够利用其强大的语义理解和推理能力,更灵活地泛化到其他任务,获得强大的零样本学习能力。
多模态指令数据的基本格式可以概括为三个要素:(指令、多模态输入、响应)。
获取此类数据的直观方法是将图像描述(图像标题)转化为示例,如下图1所示。
图1. 多模式命令数据示例
原始字幕数据样本包含图像和文本描述(地面真相)。该数据和GT对数据自然构成了指令数据的多模态输入和响应部分。
指令部分是对相应任务的描述,通常是手工编写或者调用GPT生成。
在微调多模态指令时,MLLM 会转换多模态输入并将其发送到LLM,LLM 根据多模态信息和指令文本来预测响应。
多模态情境学习
多模态情境学习的核心思想是举一反三。比如我们学习时经常接触到的格式有:
通过学习示例问题,当遇到新问题时,可以通过比例问题学习基本概念和方法,并解决新问题。
此外,示例题还可以标准化答案格式,进一步帮助您得到符合您预期要求的正确答案。
该模型通过一个例子来预测3x7计算的结果,如下图2所示。
图2.多模式上下文数据示例。使用此示例让模型预测3x7 计算的结果。
多式联运思想链
思维链是一系列中间推理步骤[2]。多模态思维链的基本思想是教会模型一步步输出中间步骤,并最终推断出最终答案,如下图3所示。
图3. 多模式思维链数据示例
相比直接输出答案的方法,思路是这样的:
· 更符合人类推理习惯:基于之前的推理步骤和结果,逐步得出最终答案。
· 适合复杂推理任务,逐步解决复杂问题,提高答案准确率。
法学硕士视觉推理
使用LLM作为决策和推理机制,调用各种多模态模型和工具,并整合输出以获得最终答案。根据完成任务的方式,一般可分为单轮和多轮型号。
单轮模型的基本思想是LLM充当计划者、调度者和决策者,协调不同的模型/工具来完成任务[1]:
· 计划者:将复杂的任务分解为可解决的子任务。
· 调度程序:将子任务分配给适当的模型/工具。
· 决策者:管理子任务的执行顺序,整合子任务的结果得到最终答案。
多轮模型基于迭代的思想,不断积累视觉感知,直到你有足够的信心得出最终答案。在这个过程中,LLM必须整合前面的步骤(提出的问题和获得的视觉感知信息)来确定是否可以输出最终答案[3]。
相关论文请参见https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models。
3
[1] Shen, Yongliang 等人,“Hugginggpt: 与chatgpt 和Hugging Face 上的朋友一起解决人工智能任务”,arXiv 预印本arXiv:2303.17580 (2023)。
[2] Wei, Jason 等人,“在大规模语言模型中通过思维提示进行推论”,arXiv 预印本arXiv:2201.11903 (2022)。
[3]Haoxuan 等人,“IdealGPT: 通过大型语言模型迭代分解视觉和语言推理”,arXiv 预印本arXiv:2305.14985 (2023)。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。