首页 > 自考资讯 > 高考百科

LLM排行榜首次更新!GPT4居榜首,330亿参数小羊驼位列开源第一

小条 2024-10-07

编辑:埃涅阿斯很困

【新智元导读】备受关注的UC伯克利LLM排位赛又更新了!GPT-4依然岿然不动稳居榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则冲至第五,代表了一众开源模型的最好成绩。

由加州大学伯克利分校牵头的LLM预赛刚刚迎来了第一次重大更新!

此次,团队不仅增加了更多的车型上榜(目前为28款),还新增了两项评价标准。

f129cd7341a2433a8905d865d96755b7~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=1XX9MVhU1xcDYFyWHbvnYpvum0Y%3D

同时,团队还针对参数大小为70亿、130亿、330亿的模型发布了更新的Vicuna-v1.3系列,并公布了权重。

2d5430f1ea0540fcb20f16e518ffbf41~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=bJ0m9DYSbhPgP5SrY3xavFATRbI%3D 项目地址:https://github.com/lm-sys/FastChat/tree/main#vicuna-weights

在新的评级系统下,GPT-4 继续排名第一,GPT-3.5 重新回到第二位。

Anthropic的两个Claude模型紧随其后,位列第三和第四。

加州大学伯克利分校最新发布的330亿参数Vicuna排名第五,仅领先于微软中国团队开源的300亿参数WizardLM模型。

020a6110cd57445fab0bb1c3a9c45fb2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=TLETJxw9krfdz8b2SHkobYkG0Lw%3D 增强的法学硕士排名

不难看出,GPT-3.5、Claude-v1、Claude-instant-v1 这三个模型其实是没有区别的。他们不仅在MT 替补得分方面非常接近,而且后者在Elo 和MMLU 得分方面也领先。

与这些专有模型相比,开源模型之间存在明显差异,甚至是第一个开源模型Vicuna-33B。

当然,总有例外。例如,Google 的PaLM2 落后于许多开源模型。

新的评估机制:MT-bench

然而,已经有许多基准测试用于评估大规模语言模型(LLM)的性能,例如MMLU、HellaSwag 和HumanEval。

然而,这些基准在评估人们对LLM 的偏好时存在明显的缺陷。

例如,传统基准通常使用封闭式问题(例如多项选择题)来测试法学硕士,并提供简洁的输出作为评估。

f6d2343986be48a39d2612f5fc1af476~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=VKN%2FWo%2F7XriLbp0ywTNxW1UfW1I%3D 使用LLaMA-13B 和Vicuna-13B 的用户之间进行多次交互。它从MMLU 基准测试的问题开始,然后是说明,然后向GPT-4 提供上下文并比较哪个答案更好。

显然,这并不是大多数人实际使用聊天机器人的方式.

为了填补这一空白,加州大学伯克利分校的团队在本次排名更新中,除了Chatbot Arena Elo 系统之外,还添加了新的基准测试MT Bench。

MT-Bench 充当聊天机器人领域的质量控制补充。

7b3d686c990a43188dee12e2795f7138~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=mmtlbSPY08pABBZVuoIuT6qeoNw%3D 论文地址:https://arxiv.org/pdf/2306.05685.pdf

目前,Arena的具体评价机制如下:

1. Chatbot Arena Elo,Chatbot Arena 使用Elo 评级系统根据收到的42,000 个匿名投票进行评级。

2. MT-Bench 分数基于具有挑战性的多轮基准测试和GPT-4 评分。该方法在论文《Judgeing LLMs as Judges》中提出并得到验证。

3. MMLU,广泛采用的基准。

为什么选择MT 工作台?

具体来说,MT-Bench是一个精心设计的基准测试,包含80个高质量的多轮问题。

这些问题可以评估模型的对话流程以及在多轮交互中遵循指令的能力,包括常见的使用场景和困难的指令。

通过过去两个月运行Chatbot Arena 并分析我们收集的一些用户数据,团队确定了八个主要类别:写作、角色扮演、提取、推理、数学、编程、知识I(科学、技术、工程) 、数学))和知识II(人文社会科学)。

每个类别有10 个多轮问题,总共160 个问题。

419901ba8d4041a68a302c78ce61ec04~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=ycUOZW7QRWwtnmqquZo5FhfCPjk%3DMT-Bench 问题示例

法学硕士由法学硕士评判

那么问题是,我们应该如何对聊天机器人的答案进行评分?

虽然人类偏好可以说是评价LLM的“黄金标准”,但收集人类偏好的过程非常耗时,成本也非常高。

相比之下,加州大学伯克利分校领导的团队从一开始就考虑基于GPT-4 的自动化评估管道。这种方法后来在多部作品中被广泛采用。

b2d22e5cd3d441888a53ba8f9bb4f092~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=O%2BV71cwWZbEdIiOtOmpP0lS9n4w%3D 此外,团队还在最新论文《LLM作为法官的判断》——中进行了系统研究,揭示了LLM法官的可信度问题。

结果表明,像GPT-4 这样强大的LLM 法官在专家组和众包组中都很好地匹配了人类法官的偏好,在两种情况下都具有超过80% 的一致性。

这种一致性程度相当于两个人类评估者之间的一致性。

基于GPT-4 的个人响应分数还可以有效地对模型进行排名并与人类偏好很好地匹配。

因此,如果使用得当,法学硕士法官可以作为人类偏好的可扩展和可解释的近似值。

f93ff71509834e96bac531563139c3e5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=UojQSpWXllManP2%2F2clGxiT4YRs%3D然而,法学硕士担任审查员时仍然存在一些潜在的限制。

1. 立场偏差,即LLM评分者在成对比较中可能会偏向选择第一个答案。

2. 长度偏差,即LLM评分者可能更喜欢较长的回复,无论回复的质量如何。

3.自我强化偏见,即LLM评分者可能会对自己的答案产生偏见。

4.推理能力有限,即LLM评审员在数学和推理题评分方面存在一定的不足。

e376fa43370d4185928b99c4c1222771~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=vARU1JOLJEATQaFnHFRa59BKV%2Fg%3D 各种LLM评估者的位置偏差

其中,所谓“一致性”是指在交换LLM订单时评估者给出一致结果的案例比例。

该团队考虑了使用小样本评估、思维链评估、基于参考的评估和微调评估来缓解这些限制的方法。

结果分析

MT-Bench 有效区分LLM 之间的表现差异

本次“排位赛”对28辆车进行了综合评价。

结果表明,不同能力的LLM之间存在明显差异,其分数与Chatbot Arena Elo分数高度相关。

特别是MT-Bench的推出清楚地表明,GPT-4和GPT-3.5/Claude之间、开源模型和专有模型之间存在明显的性能差距。

为了更好地了解法学硕士之间的差距,团队选择了几位具有代表性的法学硕士,并分析了他们在每个类别中的表现。

结果表明,与GPT-3.5/Claude 相比,GPT-4 在编码和推理方面表现出更高的性能,而Vicuna-13B 在提取、编码和数学等某些特定类别上明显落后。

这说明开源模式还有很大的改进空间。

6f6ad61c1824478b870c2bde3496895c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=849sj6V2AeBZWbthpxZi%2FZMQvqc%3D 比较八种能力的六种模型:写作、角色扮演、推理、数学、编码、信息提取、自然科学和人文学科。

多轮对话能力评价

然后,团队通过多次交互分析了所选模型的分数。

开源模型的性能在第一轮和第二轮之间显着下降(例如Vicuna-7B、WizardLM-13B),而强大的专有模型始终保持一致。

此外,基于LLaMA 的模型和更宽松的模型(例如MPT-7B、Falcon-40B 和经过调整的Open-LLaMA)之间也存在明显的性能差距。

1423bdf97aff484aacc987912d1f4e32~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=%2Bvrg9O3UuNY8RvVHUpSIxyaaXdk%3D 模型在第一轮和第二轮交互中的MT 基准分数(满分10)

LLM评估者的可解释性

使用LLM进行评估的另一个优点是它提供可解释的评估结果。

下图显示了GPT-4 对MT Bench 问题的决定。这包括alpaca-13b 和gpt-3.5-turbo 的答案。

您可以看到GPT-4 为您的决策提供了详细、全面且合乎逻辑的反馈。

加州大学伯克利分校的一项研究认为,这种类型的评估可以帮助指导人类做出更明智的决策。

a6a7b1d82d03412e9e72a9de08b2959f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728907489&x-signature=wgqJDx5TeJbWk%2B3Rb0Pv%2BfRliq0%3DMT 工作台提高了评估人类对LLM 的偏好时的可解释性

综上所述,MT-Bench可以有效区分不同的聊天机器人。

但使用时必须小心。这是因为仍然有可能出现错误,尤其是在批改数学和推理题时。

下一步

发布的对话数据

该团队计划发布Chatbot Arena 对话数据,供更广泛的研究社区使用,敬请关注。

MT工作台-1K

如今,团队正在积极扩展问题集,集成来自聊天机器人领域的高质量提示,并使用LLM 自动生成新问题,以提供更丰富的MT-Bench-1K 数据构建集。

参考:

https://lmsys.org/blog/2023-06-22-leaderboard/

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

猜你喜欢