7月27日下午,2025世界人工智能大会期间,“语料筑基智生时代”语料创新发展论坛在上海世博中心举办。作为人工智能领域的重要盛会,本次论坛由世界人工智能大会组委会指导,上海库帕思科技有限公司(简称“库帕思”)与上海市人工智能行业协会联合主办,汇聚了政产学研各界力量。诸多科学家、专家学者及企业代表齐聚一堂,共话语料数据创新发展路径,集中展示了语料领域的系列成果。
本次论坛聚焦AI Ready的高质量语料数据,以“平台筑基、工具赋能、标准引领、生态协同”为主线,集中发布了四大类核心成果,展现了上海在语料领域的坚实布局。
在服务能级方面,库帕思重磅发布“对内对外”2套平台。对外,对标服务国家战略,按照全市整体部署,打造全国首个语料运营公共服务统一门户,遵循“统一标准、统一门户、统一机制”的“1+N”运行框架,推动语料调用服务Agent化,同步完成上链。对内,发布语料工具链平台2.0,延续“采、洗、标、测、用”五位一体布局,以适应模型变化,激活AI时代的数据生产力。该2.0版本包含403个功能模块,涵盖多模异构数据采集、智能清洗算子、智能预标注算子、评测数据集管理和标准化语料交付等核心功能,已在医疗、教育、金融、城市治理等领域投入实战,且兼具云化部署和私有化部署模式,完成与现有国产算力的适配。
在标准建设方面,发布13项标准和1项指南。库帕思联合行业生态合作伙伴,持续推进“一业一方法、一业一指引”,深化标准研制。此次论坛上,集中发布10项语料团体标准,并联合信通院发布3项行业标准、1项高质量数据集建设指南,覆盖医疗、教育、金融、自动驾驶、科学智能、城市治理等多个领域,为行业发展提供实操指导,为“好数据”确立可量化的标尺。
在人才培养方面,启动工程硕博士联合培养项目。库帕思与上海交通大学、复旦大学、同济大学、上海大学等高校合作,聚焦模数协同、数算协同等语料产品和技术领域,培育兼具学术底蕴与实战能力的复合型人才,形成学校专业教育和行业导师实践协同的“产学研铁三角”,打造语料领域产教融合新模式。
在生态品牌方面,持续深化语料数据领域的生态建设,打响CICC大赛、语料风云榜等生态品牌。语料数据智能创意大赛(CICC)面向全社会征集“好语料、好技术、好场景”,为上海“模塑申城”工程筑牢语料基石,经过对200多个团队参赛方案的专业评审,最终评选出12家获奖单位。语料风云榜则为行业遴选标杆示范,按照专业化、链接型、前瞻性三个维度,围绕“语料库质量、品牌能力、市场表现”等16项指标,评选出“2025语料风云榜转型典范Top10”“2025语料风云榜新锐势力Top10”。
库帕思董事长山栋明在《拥抱以数据为中心的人工智能时代》演讲中指出,人工智能浪潮下,模型正发生一系列变化,从过去的大参数、多模态模型逐渐向小参数生产力模型、强推理慢思考模型、科学智能模型和面向物理AI的具身智能模型转变,相应的语料数据也会随之变化。为此,库帕思开展了一系列创新实践,可概括为三个重构:语料数据方法体系重构、语料技术设施体系重构、语料行业生态体系重构,坚持做好建基座、强技术、搭平台、育生态四件事。
此外,论坛直击行业一线,邀请企业家代表分享实践案例。商汤科技大装置事业群解决方案总经理代继分享《大模型研发语料工程实践》,联通数据智能有限公司副总经理宋雨伦分享《构建高质量数据集联通实践》,游族网络股份有限公司首席战略官傅焜分享《超越文本与图像:游戏多模态实时语料的价值挖掘》。
圆桌环节,由上海亿欧总经理缪国成主持,天娱科技首席数据官吴邦毅、脉策数据创始人汤舸、松应科技创始人聂凯旋、上智院主任研究员李吉羊、传播内容认知全国重点实验室学术带头人张冬明围绕《什么是好数据?》主题,共同探讨“好数据是什么、好数据在哪里、好数据需要通过怎样的机制来获得”,引发了现场的深入思考。