新华指数|中国AI大模型工业应用指数新成果正式发布
新华财经北京3月1日电(靳萱)3月1日,中国工业互联网研究院、中国经济信息社及香港科技大学联合推出的“中国AI大模型工业应用指数”第二期成果正式发布。
近年来,人工智能技术发展迅速,在医疗、教育、制造、金融等领域应用逐步深入,相关产业发展也受到社会各界广泛关注。特别是2023年初至今,大模型技术发展突飞猛进,已逐步渗透至工业领域诸多环节,涵盖了知识问答、工程建模、数据分析、文档生成、代码理解等场景,正快速成长为工业转型升级和创新发展的重要动力。
为贯彻落实党中央、国务院关于促进人工智能发展的决策部署,中国工业互联网研究院依托通用人工智能与工业融合创新中心,联合香港科技大学、中国经济信息社,深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系。本次测评在原有工业知识问答准确性测评的基础上,新增数据分析、工程建模、文档生成、代码理解等四大场景,构建测试数据集,对国内外具有代表性的大模型进行测试,形成新一期中国AI大模型工业应用指数成果进行发布。

图为大模型综合能力排名
测评结果显示,综合能力上,GPT4处于领先地位,国内大模型文心一言、ChatGLM紧随其后;对于国内大模型,多个模型综合能力超过GPT3.5,包括文心一言、ChatGLM、星火3.5、通义千问等;对于国外大模型,GPT4领先优势明显,其余模型差距较大。

图为测评结果-能力对比与变化趋势
通过能力对比可发现,在工业知识问答、文档生成等领域,国内大模型已取得领先,数据分析、代码理解等领域能力接近;在工程建模领域,国内大模型与国际水平存在一定差距。对比往期测评,2023年下半年国内大模型能力提升明显(以GPT3.5为基准)。
在工业知识问答领域,大模型可结合自身知识,回答不同工业领域问题,将用于员工培训、故障诊断、客服咨询、市场调研等交互场景,协助企业员工熟悉生产流程,帮助用户了解产品特性。测评结果显示,在知识问答领域国内大模型已具备一定优势,ChatGLM、文心一言等多个大模型实现对GPT4超越;国内大模型在建材、采矿等行业具有显著优势,在装备制造、钢铁等行业与国际接近;对比不同行业,国内外大模型在钢铁、电力等行业有较好的知识储备,对于纺织、装备制造等行业仍需加强训练。

图为测评结果:工业知识问答
在工程建模领域,大模型具备基础建模能力,将帮助工程师和企业管理人员在实际工程设计、生产运维等领域进行数学建模,寻求最佳的解决方案。此项测评中,在工程建模领域,GPT4、文心一言处于领先地位,对比其它模型具有显著优势;国内外平均成绩均为43分,大模型建模能力整体处于较低水平,可收集数学建模专业语料进行强化训练,也可以使用代码解释器等增强工具提升大模型建模能力。

图为测评结果:工程建模
在数据分析领域,大模型可将结构化数据提炼为核心结论,对复杂业务数据进行自动分析,更全面、及时地帮助企业管理者运营和决策,提升工作效率和运营质量。此项测评中,文心一言能力最佳,与GPT4、Mistral等构成第一梯队;国内外大模型分数均较低,大模型直接用于数据分析可能造成部分信息遗漏或描述偏差,实际应用中可使用优秀数据分析案例进行微调,或将案例加入到提示词中,利用大模型小样本学习能力提升效果。

图为测评结果:数据分析
在文档生成领域,大模型将帮助用户快速、高效处理和生成各类文档,如宣传文案、操作手册、技术文档、施工方案等,提高工作效率和质量。要点总结方面,国内外平均成绩相对较高,文档生成(要点总结)场景属于当前大模型较擅长领域;国内外性能最佳模型成绩接近满分,基本可成熟应用于该场景。观点分析方面,国际大模型平均超出国内较多,国内模型需整理高质量语料进行强化训练,提升观点分析成效;百川3、星火3.5、Yi优势明显,已实现对GPT4的领先。


图为测评结果:文档生成
代码理解领域,大模型将面向工业需求编写代码,回答计算机编程相关问题,辅助代码功能性和安全性检测,提升工程师编码效率,保障程序安全、平稳运行。其中,GPT4和文心一言准确度较高,相对其他模型优势明显;国内外平均成绩相对偏低,编程相关知识掌握薄弱,应全面提升模型训练集中代码语料的数量和质量,代码解释器模块可能 对大模型理解代码的能力有较大帮助,建议更多大模型引入。

图为测评结果:代码理解
综合各场景对比可发现,当前大模型在文档生成领域应用成熟度较高,在工业知识问答、数据分析、工程建模、代码理解场景应用成熟度相对较低,且国内外大模型在文档生成、数据分析、代码理解场景准确度差异较大。同时,大模型在钢铁、电力等行业有较好的知识储备,对于纺织、装备制造等行业仍需加强训练,其中国内大模型在建材、采矿等行业优势显著,在装备制造、化工等行业与国际大模型水平接近。从近期发展趋势观察,GPT4仍处于领先地位,但近半年国内大模型能力显著提升,与GPT4差距不断缩小,部分场景应用能力已实现赶超。
未来,对于工业大模型的探索主要集中在几方面:首先,挖掘新场景,开展多模态测评,开展多模态能力测评,包括图像识别,视频原生等,挖掘更多大模型工业潜在应用场景,如PLC代码生成,智能安监、智能质检等。其次,指导大模型面向工业应用迭代,如面向大模型应用成熟度较低场景,整理针对性语料,支持大模型预训练或微调。同时,开展行业模型测评,面向工业应用开展行业大模型评测工作,在重点工业领域遴选优秀的行业大模型。相关指数成果也将持续更新。













