IT之家6月7日讯统一钱文(Qwen)今日宣布,经过几个月的努力,Qwen系列机型已从Qwen1.5大幅升级至Qwen2,同时开源了Hugging Face和ModelScope。那。
Qwen 2.0 与IT Home 的亮点包括:
预训练和指令微调模型有五种尺寸,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和Qwen2-72B
在中文和英文的基础上,训练数据中添加了27种语言相关的高质量数据。
在多项评估基准上均表现出色。
编码和数学技能显着提高。
将支持的上下文长度增加到最多128K 令牌(Qwen2-72B-Instruct)。
模型基础信息
Qwen2系列包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B等五个尺寸的预训练和指令微调模型。
型号Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B 参数数量0.49B1.54B7.07B57.41B72.71B 非嵌入参数数量0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTie Em 是ddingTrueTrueFalse FalseFalse 上下文长度32K32K128K64K128K
Qwen1.5系列中,只有32B和110B型号使用GQA。这次,我们对各种规模的模型都采用了GQA,以便每个人都能体验到GQA 更快的推理和减少内存使用的好处。
模型评测
相比Qwen1.5,Qwen2在大型模型上取得了非常显着的改进。我们对Qwen2-72B进行了全面审查。
在我们对预训练语言模型的评估中,与当前最好的开源模型相比,Qwen2-72B 在包括自然语言理解、知识、代码、数学和多语言能力在内的许多特征上都优于当前的Llama 等模型。 -3-70B和Qwen1.5-110B,这是Qwen1.5最大的型号。
IT主页附参考地址
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。