新华通讯社主管

首页 >> 正文

智源最新模型评测:百度文心大模型4.0登顶闭源榜
2024-06-18 来源: 经济参考网

  近日,由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一。

FlagEval大语言模型评测能力榜单官网截图

  FlagEval天秤大模型评测平台是智源研究院推出的科学、权威、公正、开放的大模型评测体系,自2023年发布以来,已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外300余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。

FlagEval大语言模型评测能力榜单官网截图

  从榜单中可以看到,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一,云雀2-Pro、豆包、GPT-4o分别位居二三四位,百川、零一万物、kimi等追随其后。

  日前,国际数据公司IDC发布的《中国大模型市场主流产品评估,2024》中,百度同样位于第一梯队。评测显示,百度旗下生成式AI产品文心一言和文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。其他评测厂商中,阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。

IDC《中国大模型市场主流产品评估,2024》

  公开资料显示,2023年10月,百度文心大模型4.0正式发布,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上明显提升。截至目前,文心一言累计用户规模已达2亿,日均调用量也达到了2亿。(李妍)

凡标注来源为“经济参考报”或“经济参考网”的所有文字、图片、音视频稿件,及电子杂志等数字媒体产品,版权均属《经济参考报》社有限责任公司,未经书面授权,不得以任何形式刊载、播放。获取授权

打通“拆送装”全链条 家电以旧换新撬动消费大市场

打通“拆送装”全链条 家电以旧换新撬动消费大市场

“6·18”已至,全国消费品以旧换新活动陆续启动,各地促消费政策接连落地……

·从“沙进人退”到“沙里掘金”——我国沙漠治理带动产业发展观察

“进”的势头更劲 “稳”的基础更牢

“进”的势头更劲 “稳”的基础更牢

长春,被誉为新中国汽车工业摇篮,制造出第一辆汽车、第一辆东风牌小轿车、第一辆红旗牌高级轿车。

·深入实施创新驱动发展战略 吉林国企加速跑

《经济参考报》社有限责任公司版权所有 本站所有新闻内容未经协议授权,禁止转载使用

新闻线索提供热线:010-63074375 63072334 报社地址:北京市宣武门西大街57号

JJCKB.CN 京ICP备18039543号

010140010080000000000000011100001310778803