机器心脏报告
编辑:熊猫
前几天,很多用户抱怨GPT-4变得多么愚蠢,但它到底变得有多愚蠢呢?
近日,斯坦福大学和加州大学伯克利分校的一篇arXiv 预印本论文提供了关于这一问题的定量实验结果,并公布了相关的评估和响应数据。
论文发表后立即引起广泛关注和讨论,不少网友认同论文中描述的结果。
当然,任何事情都有两个方面。有网友不同意论文结论,并发文质疑论文结果过于简单化,称“研究结果很有趣,但有些方法值得商榷”。
问题文章链接:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
现在让我们看看斯坦福大学和加州大学伯克利分校的这篇论文发现了什么。
论文链接:https://arxiv.org/pdf/2307.09009.pdf
项目数据:https://github.com/lchen001/LLMDrift
具体来说,我们通过四个任务研究了2023 年3 月和6 月版本的GPT-3.5 和GPT-4 的生成结果,发现这两个LLM,尤其是GPT-4 的求解能力,有一些指标表明它实际上正在获得更差。可以说,数学题的准确率像雪崩一样从3 月份的97.6% 下降到6 月份的2.4%。研究人员还推测了这些变化的原因。
来源:Twitter @svpino
GPT-3.5和GPT-4等大规模语言模型(LLM)得到广泛使用。 GPT-4 等LLM 可能会根据用户数据、反馈和设计变更随着时间的推移进行更新。然而,我们还不知道GPT-3.5 和GPT-4 将如何更新,以及这将如何影响这些LLM 的行为。
这些未知因素使得法学硕士很难可靠地集成到大规模工作流程中。法学硕士对提示的响应(例如准确性或格式)的突然变化可能会扰乱下游任务。这使得从“相同”法学硕士重现相同结果变得困难(如果不是不可能的话)。
除了这些集成困难之外,像GPT-4 这样的LLM 服务是否会随着时间的推移继续“改进”也是一个有趣的问题。重要的是你需要知道:执行更新来改进模型的某些方面是否会损害模型的其他功能?
为了找到这些问题的答案,斯坦福大学和加州大学伯克利分校的研究人员将根据四项关键任务更新GPT-3.5 和GPT-4 的2023 年3 月和6 月版本: 评估其性能。 1) 解决数学问题,2) 回答敏感/危险问题,3) 生成代码,4) 进行视觉推理。
研究人员表示,选择这四项任务是因为它们代表了法学硕士的多样化和有用的特征。他们最终发现GPT-3.5 和GPT-4 发行版的性能和行为都发生了显着变化,更新的版本进一步降低了某些任务的性能。
概述:LLM 服务、任务和指标
在本文中,我们研究了不同法学硕士随着时间的推移的行为。下面,我们描述一下LLM、评估任务以及我们在定量研究中关注的指标。
LLM Services:研究人员研究的模型是GPT-3.5和GPT-4,它们是ChatGPT的骨干。
如下图1所示,有四个评估任务:解决数学问题、回答敏感问题、生成代码和视觉推理。
图1:2023 年3 月和6 月版本的GPT-4 和GPT-3.5 在四种不同任务上的性能。我们可以看到,GPT-4 和GPT-3.5 的性能差异很大,并且对于某些任务来说性能更差。
指标:这里,每个任务都有一个主要指标和两个所有任务共有的附加指标。
准确性:法学硕士给出正确答案的可能性。这是解决数学问题任务的主要指标。回复率:法学硕士直接回答问题的频率。这是回答敏感问题任务的关键指标。是否直接执行:哪些部分的代码可以直接执行?这是代码生成任务的主要衡量标准。精确匹配:生成的视觉对象与地面事实完全匹配吗?这是视觉推理任务的主要指标。详细程度:生成的长度。重复:同一LLM 的两个版本的同一提示的答案是否匹配。测试揭示了LLM 的巨大变化
解决数学问题:思维链可能会失败
结果可能令人惊讶,但法学硕士在这项简单任务上的表现差异很大。如下图2(a) 所示,GPT-4 的准确率从3 月版本的97.6% 骤降到6 月版本的2.4%,而GPT-3.5 的准确率从7.4% 跃升至86.8%。
此外,GPT-4的反应也变得更加严厉,平均冗余度(生成的字符数)从3月版本的821.2下降到6月版本的3.8。与此同时,GPT-3.5的响应速度提高了约40%。两种模型的3 月版本和6 月版本之间的反应几乎没有重叠。
图2:数学问题解决:(a) 2023 年3 月和6 月版本的GPT-4 和GPT-3.5 的准确性、冗余性和答案重叠。总体而言,两种模型的性能都发生了巨大变化。 (b) 询问和相应答复的示例。
这种表现上的差异从何而来?研究人员给出的一种解释是思维链影响力的变化。图2(b) 显示了一个示例。可以看到,3月份版本的GPT-4遵循思维链指示,得到了正确答案,但6月份版本忽略了思维链,得到了错误答案。 GPT-3.5 始终遵循思维链指令,但其3 月版本要求它生成错误答案(否),而6 月版本显着修复了此问题。
回答敏感问题:提高安全性,但没有理由拒绝
关于这项任务,研究人员观察到两个趋势。如下图3所示,第一个趋势是GPT-4回答不太敏感的问题,从3月份版本的21.0%上升到6月份版本的5.0%,而GPT-3.5数据正在增加(从2.0%上升到8.0%)。
研究人员推测,这是因为GPT-4 在6 月份的更新中引入了更强的安全层,而GPT-3.5 则不那么保守。第二个趋势是GPT-4的代长度从600多代减少到140代左右。
图3:敏感问题的答案:(a) 总体性能变化。 GPT-4 需要回答的问题较少,而GPT-3.5 需要回答的问题稍多。 (b) 询问和相应答复的示例。 GPT-4 和GPT-3.5 的3 月版本提供了拒绝回答问题的更详细原因,使它们更容易理解。六月号只会说“对不起”。
为什么长度会改变? GPT-4更加简洁,因此你不仅需要回答的问题更少,而且拒绝回答时的解释也更少。图3(b) 中的示例说明了这一点。 GPT-4 的3 月版和6 月版都拒绝回答不适当的询问。然而,虽然3 月份的版本生成了一整段文本来解释拒绝的原因,但6 月份的版本只是简单地说:“抱歉,GPT-3.5 也有类似的问题。”这表明这些法学硕士可能更安全,但拒绝回答某些问题的理由更少。
代码生成:更详细但不能直接执行的代码
总体而言,直接可执行代码量从3 月版本到6 月版本有所减少。如下图4(a) 所示,GPT-4 3 月版本中超过50% 的生成代码可以直接执行,而6 月版本中这一比例仅为10%。 GPT-3.5也有类似的趋势。两种型号的冗余度均略有增加。
图4:代码生成:(a) 整体性能变化。 (b) 询问和相应答复的示例。三月版的GPT-4和GPT-3.5都遵循用户指令(仅代码/仅代码生成),因此生成的结果是直接可执行代码。但6月版本在代码片段前后添加了三个引号“”,导致代码失败。
为什么直接可执行结果的数量减少了?一种可能的解释是六月版本总是在生成的结果中添加额外的非代码文本。
图4(b) 显示了一个示例。 GPT-4 3 月和6 月版本产生的结果基本相同,但有两处差异。首先,6月版本在代码段前后添加了“python”和“”。六月号随后引发了一些评论。变化并不大,但是添加三个引号会导致代码无法直接执行。当将LLM 生成的代码集成到更大的软件开发过程中时,这个问题仍然很严重。
视觉推理:小幅改进
如下图5(a) 所示,GPT-4 和GPT-3.5 的性能提升都很小。然而,3 月和6 月的版本对于90% 的视觉拼图查询产生了相同的结果。这些服务的整体性能也很差:GPT-4 为27.4%,GPT-3.5 为12.2%。
图5:视觉推理:(a) 总体性能。 GPT-4和GPT-3.5的整体性能较3月版本相比6月版本提升了约2%。产生的长度保持大致相同。 (b) 询问和相应答复的示例。
请注意,较新版本的法学硕士不一定会产生更好的结果。事实上,虽然GPT-4 的整体性能有所提高,但6 月版本仍然出现了一些3 月版本正确的问题。图5(b)是一个例子。 GPT-4 的6 月版本总体上提高了性能,但在这种特殊情况下并没有提高。三月版显示了正确的网格,但六月版却没有。这表明需要密切监视模型性能的变化,特别是对于关键应用程序。
评估详情请参阅原始论文。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。