4月28日,在第八届数字中国建设峰会期间,中国电信北京公司联合北京邮电大学共同宣布成立“行业数据智能标注联合实验室”。据介绍,该联合实验室依托京津冀算力协同等优势,构建从采集、存储到加工的全流程治理环节,形成专属工具集与行业标准,并将推动人形机器人、具身智能等领域的数据标注标准化,助力行业数据标准建设。
行业数据智能标注是人工智能产业发展的核心支撑技术之一,通过智能化技术手段,对多模态数据进行分类、标记、注释等加工处理,将其转化为可供机器学习模型训练和推理的高质量数据集。
据介绍,联合实验室针对大模型数据集海量、多源、多模态且具高准确性、一致性和时效性要求的特点,构建了从采集、存储到加工的全流程治理能力,为各行业打造高质量数据集。在采集环节,整合多源数据,获取多模态信息并确保实时更新;存储上,采用分布式架构与异构存储方式;加工时,进行数据清洗、过滤及增强。
据悉,联合实验室研究计划分三阶段推进:2025年度将聚焦北京电信大同数据标注基地,研发行业数据标注技术解决方案与智能辅助工具,构建可复用的标准化方法论体系,形成支撑多大型标注项目并发的技术服务能力;2026年度依托联合实验室与标注基地,系统建设覆盖金融、医疗等关键领域的8个行业高质量数据集,同步开发数据可信空间技术实施方案,构建数据治理闭环框架;2027年度重点开展成果转化与生态建设,发布10个高端数据标注示范案例,牵头制定数据标注质量评估、可信数据空间构建等领域的行业技术标准,推动形成涵盖数据采集、治理、应用的全链条评价体系。
“联合实验室整合了中国电信数据标注技术、算力优势、山西大同市大规模标注人才优势、北京邮电大学强大的技术研发优势,目前已形成文本、语音、图像、视频等7类模态数据提供50余种智能标注工具,为数据要素市场和人工智能产业建设不断贡献方案和力量。”北京电信总经理助理张康介绍。
北京邮电大学经济管理学院院长闫强说,数字经济时代需要建立人才培养机制,将通过共建联合实验室、定向培养计划、项目制实习基地等创新模式,实现“企业命题、高校解题”的良性互动。