首页 > 自考资讯 > 自考知识

目前大多数bi产品在ai深度分析上无应用场景,新冀人版六年级仿生建筑模型大比拼视频

头条共创 2024-06-27

机心原件

作者:陈平、小舟

如果试题太简单,即使是差生也能得100分。我们该用什么样的“试卷”来检验一个在AI世界里一直处于流量C位的大模型的真实水平呢?这是一道高考题吗?当然不是!

有人认为,在各种基准排行榜上排名第一的人就是最强的。

事实上,情况可能并非如此。名单越“权威”,就越有可能被战略性地从名单中删除。

因此,一个模型的“实力”不仅仅在于它在某个特定基准上排名第一,还在于它必须能够在多个维度上表现良好。

全球领先公司国际数据公司(IDC)近日发布了最新的大型模型实测报告《中国大模型市场主流产品评估,2024》,对11家大型模型厂商的16款主流产品进行了从基础性能到应用性能的七维度实测。

报告显示,百度文信综合竞争力处于顶尖水平,产品能力处于第一阶段,是唯一一家在七个方面均处于优势厂商的企业。文心一言、文心一格认为,理解问答、推理、创意表达、数学、编码等基础能力,以及toC、toB通用场景类型等应用能力在七方面具有优越优势关键方面。特定行业。在其他接受评估的制造商中,阿里巴巴获得了六项好处,OpenAI GPT-4和商汤科技各获得了五项好处。

e04a5da1dc5c464a80c01bcf8f8f14f3~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720076779&x-signature=NL0gjztgnnP1Ez7i6wXDzVIl8xk%3DIDC 《中国大模型市场主流产品评估,2024》

要知道,这份实际的测试报告和之前的评测清单是不一样的。

首先,在评审委员会的监督下,IDC成立了专门的产品测试团队,并引进了外部专家团队,保证了评测结果的可靠性。

二是测试的全面性。 IDC列出的厂商中,不乏耳熟能详的,既有OpenAI等海外厂商,也有阿里巴巴、商汤科技、科大讯飞、百川、智普、昆仑等11家主流机型厂商的16款产品等国内厂商。参与了本次评价。由此可见,IDC集结的模型合集,是为了取得领先,没有两把刷子就无法占据的高手合集。

IDC测试题除了覆盖众多厂商外,还涵盖方方面面。共七个方面,分为基础能力和应用能力两类。基本技能包括问答理解、推理、创意表达、数学和编码。 应用技能主要分为两大类:toC的通用场景类和toB的特定行业类,每个类别单独评分。

54611d93640b49bb8f8cfc0f4368f52a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720076779&x-signature=eyNOkuqhOBrEpJXJedZPYSdyvm0%3DIDC问题类型

7D,主流大车型全面较量

毫不夸张地说,这一年来,AI领域是一场“百模型之战”。特别是在中国,从科技巨头到初创公司,各种公司都在推出自己的大幅面产品。

此次IDC评测了业内知名的主流基础大型号产品。

从IDC报告结果来看,百度文心一言4.0、文心一格、OpenAI、阿里巴巴、商汤科技、科大讯飞发布的大模型产品处于第一阶段,百川、智普、昆仑万维紧随其后。联汇、云之声、云从科技暂时属于第三梯队。

在IDC评测的e1abb786cd704d7c91dd519f1b9bc800~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720076779&x-signature=x%2BLqXLeLKS2%2B%2Bww2b%2FZoR5ke6JY%3D细分七方面评测中,百度文信大机型各项指标均被列为有利厂商,没有任何缺点,可以说是全能选手。其他制造商生产的大型型号都不是完全出色的,并且在一个或多个方面存在缺陷。阿里巴巴以六项优势排名第二,OpenAI GPT-4和商汤科技以五项优势排名第三。例如,顶级公司OpenAI和阿里巴巴在数学题上不如百度,商汤科技在ToC的一般场景题上不及格。

从实际的模型效果和迭代速度来看,文心的大规模模型在文档/长文本特征、搜索增强、创意代理等技术和产品创新方面非常值得关注。

拆解基本能力

5f8aff50a9b2487dbed48270eb0438e9~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720076779&x-signature=66gw4MY%2FezbNEjXRJULRgP%2FFf2U%3DIDC咨询发布基础大型号产品实测结果

百度、GPT-4、阿里巴巴、商汤科技被列为问答理解类主要厂商。这类问题主要测试模型理解和回答人类问题的能力。 IDC考察常识、专业知识、多语言、多模态、角色扮演+多轮交互以及安全陷阱。

在安全陷阱细分中,仅选择了百度文信的大型号。我们推测,这是因为百度对大规模模型的安全问题进行了全面的研究,以确保其服务的安全。关于大型模型讨论最多的问题一直是安全和隐私。 IDC的结果表明,当前只有少数产品能够充分识别安全陷阱,需要进一步优化。

目前,大规模模型开发的方向是多模态。因此,大规模模型不仅要在文本上表现良好,还要在图像、音频等多个方面表现良好。百度在多模态和角色扮演+多轮交互方面也表现出色。

推理问题主要考虑大规模模型的思想,根据已知信息得出新的结论。百度在归纳推理和类比推理两个指标上被选为领先制造商。归纳推理和类比推理通常需要抽象的高级思维技能。这就要求模型能够处理和整合各种来源的信息,包括直接数据和推断的隐含信息,以保证模型推断的准确性。

随着生成式人工智能的快速发展,创意表达已成为大规模模型的竞争舞台。我只写了文章的开头,但我不知道如何继续或添加标题.在这种情况下,一个大模型将帮助您完成文章。我们以文本样式迁移为例。该任务要求模型准确理解风格迁移所依据的原始文本的内容和意图。模型需要识别和理解不同的写作风格,这就要求模型能够区分不同类型的语言风格,例如学术文档、商业报告、新闻报道和口语。基于模型对原始文本内容和目标风格的理解,生成的文本应保持一致性、连贯性等。这些对大型模型背后的技术提出了很高的要求。

这方面的对比结果表明,百度在内容创作、生成质量、速度等方面具有优势,这将进一步增强其在数字内容市场的竞争力。

从IDC测试来看,国产大型模型在问题解决、推理、创意表达等方面的成熟度正在逐步提升。然而,数学和编码这两项基本技能的总体得分较低。

大型模型长期以来一直被归类为数学“后进生”。在数学任务中,大规模模型不仅需要逻辑推理能力,还需要充分分析和理解问题,抽象出每个问题的逻辑关系,最终给出准确的答案。 IDC报告显示,百度的大规模模型在数学任务中表现出强大的系统性、逻辑性和抽象思维能力。

代码熟练程度反映了您评估大规模模型理解、逻辑、推理、生成等的整体能力。代码能力已经成为程序员帮助他们编程的必备助手。在代码类别的全部六个细分领域中,百度在代码生成、编程转换、代码补全、代码纠错等方面都表现出了优越的表现,入围领先厂商。

应用能力评估

除了大规模模型的基本表现外,IDC主要从面向普通用户的ToC和面向企业用户的ToB两个方面综合评估其应用能力。

基于以上两个设计方面,文信大模型开发了基础模型应用、代理模式应用、多模态应用等多种创新应用模式,将大模型的特点真正转化为生产力提升。

例如,在行业内,百度智能云推出千帆大型模型平台,向公众提供一站式企业级大型模型开发和服务运营平台。 2024年5月下旬,百度宣布文信大模两大型号ERNIE Speed和ERNIE Lite免费。迄今为止,曾与国家电网、浦发银行、中国航天、吉利汽车、长安汽车、泰康保险、TCL、上海词典出版社、荣耀、三星、蔚来、南方电网、山东港口、汽车之家、毕马威等成为百度文信大模型的用户和合作伙伴。文鑫大模型已拥有国内最广泛的工业安装规模。

结论

除了这份IDC报告外,最近的多篇评论也指出了文心大模型和文心一言的出色表现。

前段时间,清华大学《SuperBench 大模型综合能力评测报告》共评测了国内外14款代表性车型。结果表明,温馨一言4.0作为国内头部模型已经接近国际顶级模型的水平。

根据沙利文发布的《2024 年中国大模型能力评测》报告显示,百度文心一言在国内大型模型中排名第一,其中数学科学能力、语言能力、道德责任感、行业能力和综合能力五项获得第一名。主要评价标准。

回顾2012年开始的深度学习革命,百度始终高度重视AI技术的开发和应用。直到这一波大模型到来,百度率先推出国内大模型产品,并持续推动技术迭代和实际应用。 “百模型大战”一年半后,大型模型已进入实用阶段。在这个过程中,百度的大模型生成质量、生成速度、使用成本可能会成为这场战争的胜利者。

版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。

猜你喜欢