3月31日,记者在教育部介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》,推进语言文字信息化发展情况的新闻发布会上获悉,近日教育部、国家语委、中央网信办共同印发了《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),部署应用关键新技术,构建资源数据新体系,实施赋能全局新行动,全力服务教育强国、科技强国和文化强国建设。
根据《意见》要求,第一步,到2027年,国家数字中文建设行动取得重要成效,语言文字数据要素价值有效释放。第二步,到2035年,中文在全球数字空间、网络空间以及生成式人工智能等关键应用场景中的使用占比显著提高;语言文字信息化有力支撑国家语言能力建设、语言文字事业和经济社会高质量发展,整体水平位居世界前列。
教育部语言文字信息管理司司长刘培俊指出,当前数字中国建设的大背景和世界大语言格局,对承载中华文化的中文数字化提出新的要求。
“《意见》明确提出重点加强数字中文建设,着力推进中文数字化与数据中文化、创新应用与规范安全、新型中文服务体系构建与语言文字治理体系的完善,进一步提升中文在全球数字空间以及人工智能等关键应用场景的使用占比和价值引领,进一步提升在全球语言治理框架中中文参与度和在世界文明交流互鉴中的中文贡献率,为教育强国、科技强国、文化强国建设发挥中文更大的作用。”刘培俊说。
“加强数字中文建设将从三个维度重塑发展格局,推动中文信息处理技术发展进入新阶段。一方面,语言文字要从重要资源转化为数据要素价值。新形势下,语言文字将实现从‘静态符号’向‘动态数字资产’,从‘信息载体’向‘生产要素’的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。同时,语言文字要从广泛存在聚焦到关键领域应用,聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。此外,语言文字还要从基础支撑提高到赋能全局发展。语言文字将实现与信息技术的深度融合,要形成‘技术突破—场景落地—生态繁荣’的良性循环。”北京大学王选计算机研究所所长汤帜表示。
据教育部语言文字应用管理司副司长王晖介绍,目前教育部已经启动布局了新型国家语料库的建设工作。“一方面是规范引领,主要是加强制度的供给,研制语料库建设规范,突出价值导向、应用导向、创新导向,统筹质量和安全,为语料库建设提供基础原则和方法指引。另一方面是示范引导,成熟先上,开发建设‘中华文脉新型语料库’‘中华大阅读体系语料库’,以这两个示范库建设整体打造出标杆。在此基础上,探索建设系列教育、语言文化国家新型语料库群,服务教育强国、文化强国建设。”王晖表示。
值得关注的是,科研院所和高校也在发力数字中文建设。
“语言文字是文化的基础要素和鲜明标志,是文化传承发展的重要载体,是国家软实力的重要组成部分。北京大学王选计算机研究所将以数字中文建设为契机,深化产学研用协同机制,进一步发挥在人工智能、文字信息处理和字体设计领域的优势,以发挥中文数据的赋能作用为着力点,努力研发更多优质的中文字库,满足社会用字需求,助力中文发挥立德树人的基础作用、传承中华文化的根脉作用、推进科技创新的支撑作用、赋能产业升级的关键作用,助力教育强国建设。”汤帜说。
北京师范大学党委常委、副校长康震则提到,为积极应对以大语言模型为代表的人工智能技术对教育变革带来的新机遇、新挑战,北京师范大学发挥古籍整理智能化关键技术优势,针对古汉语信息处理任务“低资源”“富知识”的特点,以解决领域知识学习需求为核心任务,使用1.8B(18亿)参数量,训练出理解力强、准确率高、应用场景丰富的“AI太炎”古汉语大语言模型。
“下一步,北京师范大学将认真贯彻落实《意见》,持续推动学科交叉融合和协同创新,强化有组织科研,加快培养复合型人才,推进国家关键领域语料库和智能化关键技术研发,探索大语言模型创新应用新范式,为教育强国建设贡献更多的智慧和力量。”康震表示。