首页 > 自考资讯 > 高考百科

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高128K tokens

小条 2024-10-07

IT之家6月7日讯统一钱文(Qwen)今日宣布,经过几个月的努力,Qwen系列机型已从Qwen1.5大幅升级至Qwen2,同时开源了Hugging Face和ModelScope。那。

767253918c40441797bec94de7d3b91d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728836010&x-signature=D%2BH2gFZ4NqH1yqNm9ZkRNLNpDmg%3D

Qwen 2.0 与IT Home 的亮点包括:

预训练和指令微调模型有五种尺寸,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和Qwen2-72B

在中文和英文的基础上,训练数据中添加了27种语言相关的高质量数据。

在多项评估基准上均表现出色。

编码和数学技能显着提高。

将支持的上下文长度增加到最多128K 令牌(Qwen2-72B-Instruct)。

模型基础信息

Qwen2系列包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B等五个尺寸的预训练和指令微调模型。

型号Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B 参数数量0.49B1.54B7.07B57.41B72.71B 非嵌入参数数量0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTie Em 是ddingTrueTrueFalse FalseFalse 上下文长度32K32K128K64K128K

Qwen1.5系列中,只有32B和110B型号使用GQA。这次,我们对各种规模的模型都采用了GQA,以便每个人都能体验到GQA 更快的推理和减少内存使用的好处。

模型评测

相比Qwen1.5,Qwen2在大型模型上取得了非常显着的改进。我们对Qwen2-72B进行了全面审查。

在我们对预训练语言模型的评估中,与当前最好的开源模型相比,Qwen2-72B 在包括自然语言理解、知识、代码、数学和多语言能力在内的许多特征上都优于当前的Llama 等模型。 -3-70B和Qwen1.5-110B,这是Qwen1.5最大的型号。

4d998b2c75c74459b076ec7c4e32cd44~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728836010&x-signature=Ri7LOLB8Y58ZmBRjZ5z3ih37ln8%3D

22393b9095474babb0d247abfcd21b9b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728836010&x-signature=5nT6nADfToZsU1JMQRMx%2FQNfAsM%3D

1fc0ad23e2df405699dfd04e711852f5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728836010&x-signature=SP%2F6tndDIg1mYpCqwhB5lfq3NGc%3D

6c78a972272d47ac8582cf92f395a1b7~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728836010&x-signature=cVs7Z32jYFGy4iu%2Fx23xNIT0FSA%3D

IT主页附参考地址

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

猜你喜欢