数字中文建设在行动

0次浏览     发布时间:2025-04-01 02:59:00    

为落实《教育强国建设规划纲要(2024—2035年)》,教育部、国家语委、中央网信办近日共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),部署应用关键新技术,构建资源数据新体系,实施赋能全局新行动,全力服务教育强国、科技强国和文化强国建设。

3月31日,教育部召开新闻发布会,介绍推进语言文字信息化发展情况。

明确两步发展阶段

《意见》提出,加强数字中文建设的理念、政策、行动和项目,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会发展中的数据要素价值,着力推进中文数字化与数据中文化,着力推进创新应用与规范安全,着力推进新型中文服务体系构建与语言文字治理体系完善。

《意见》明确两步发展阶段:第一步到2027年,是以数字中文建设为重点的强基示范阶段,形成语言文字信息化推进机制,推动语言文字信息化规范标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强;第二步面向2035年,是全面推进语言文字信息化发展的深化赋能阶段,推动承载中华文化的中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,实现我国语言文字信息化整体水平位居世界前列。

教育部语言文字信息管理司司长刘培俊介绍,重点加强数字中文建设主要有以下考虑:一是中文使命任务重大——今后一个时期,中文服务数字中国建设,加大国家通用语言文字推广力度,深化中华优秀语言文化传承,增进语言文明国际交流互鉴等多项重大任务,更加需要中文数字化赋能。二是中文文化内涵丰富——中文承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品,更加需要中文数字化传播。三是中文使用范围广泛——中文是世界上使用人数最多的语言,是联合国六种工作语言之一,190多个国家和地区开展中文教学,85个国家将中文纳入国家的教育体系,更加需要中文数字化学习。四是中文数据价值突出——大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展,更加需要中文数字化支撑。

从“信息载体”向“生产要素”转型

当前,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。北京大学王选计算机研究所所长汤帜认为,加强数字中文建设将从三个维度推动中文信息处理技术发展进入新阶段。

一是从重要资源转化为数据要素价值。语言文字将从“静态符号”向“动态数字资产”、从“信息载体”向“生产要素”转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等。

二是从广泛存在聚焦到关键领域应用。语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。新形势下,语言文字将实现从符号存储到智能建模的质变,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。

三是从基础支撑提高到赋能全局发展。语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革。语言文字将实现与信息技术的深度融合,要形成“技术突破—场景落地—生态繁荣”的良性循环,打造数字化引领品牌,有力服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步。

建设高质量的语言文化语料资源

语料库是加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展的基础支撑,也是经济社会信息化建设、数字化赋能和智能化发展的基础要素。

然而当前,在语言的教育教学和研究领域,虽然有多个语料库,但很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。

对此,《意见》提出,到2027年初步建成国家关键语料库。刘培俊介绍,启动实施国家关键领域语料库建设计划,在关键学科、重点行业、战略区域、民生期待和社会急需领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。

据介绍,国家关键领域语料库建设立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

(本报北京3月31日电 本报记者 柴如瑾)

相关文章
【光明时评】制造业稳中有进 再度显示韧性与潜力

【光明时评】制造业稳中有进 再度显示韧性与潜力

来源:光明日报国家税务总局日前发布的数据显示,今年一季度,我国制造业销售收入同比增长4.8%,增速较2024年加快0.9个百分点。高端装备、数字产品、绿色制造等领域均有不俗表现,高端化、智能化、绿色化方面亮点凸显。总体来看,我国制造业“稳”的基础不断夯实,“进”的态势巩固拓展,“好”的因素持续积累,

2025-04-25 13:23:00

占比达60%!我国成为全球人工智能专利最大拥有国

占比达60%!我国成为全球人工智能专利最大拥有国

记者从24日举行的国新办新闻发布会获悉,目前,我国人工智能领域呈现良好的发展势头。根据世界知识产权组织报告,中国已经成为全球人工智能专利的最大拥有国,在全球的占比达到60%。人工智能是新一轮科技革命和产业变革的重要驱动力量。国家知识产权局局长申长雨表示,近年来,国家知识产权局积极回应人工智能新领域、

2025-04-25 09:15:00

29年专注改性塑料,青岛中新华美CHINAPLAS展示中国制造硬实力

29年专注改性塑料,青岛中新华美CHINAPLAS展示中国制造硬实力

4月18日,为期4天的CHINAPLAS 2025国际橡塑展于深圳圆满落下帷幕。此次展会青岛中新华美塑料有限公司携多款改性塑料重磅亮相,向全球客户展示了公司在改性塑料领域的技术实力和创新成果。展会期间,奇美相关领导,比亚迪、美的等名企有关负责人,以及来自葡萄牙、西班牙等国家头部汽车注塑厂莅临青岛中新

2025-04-25 00:04:00

社零增速9.5%领跑全市 龙湾一季度经济“开门红”成色足

社零增速9.5%领跑全市 龙湾一季度经济“开门红”成色足

春潮涌动处,发展正当时。记者近日从龙湾区商务局了解到,2025年一季度龙湾以9.5%的社会消费品零售总额增速排名县市区第一,批发业更是创下39个月来最高增速,拉动全市增长3个百分点……在当前复杂的宏观经济形势下,龙湾以亮眼的数据强势开局,其背后消费与外贸两大引擎的协同发力尤为关键。消费引擎强劲驱动社

2025-04-23 09:43:00

日本单周新增百日咳确诊人数首超千人

日本单周新增百日咳确诊人数首超千人

来源:中新社中新社东京4月22日电(记者 朱晨曦)日本国立健康危机管理研究机构22日发布的最新数据显示,截至本月13日的一周内,日本新增百日咳确诊人数为1222人,自2018年开始采用现行统计方法以来首次单周超过1000人。数据显示,截至13日的一周内,日本单周新增百日咳确诊人数较前一周增加500人

2025-04-23 08:53:00

王威廉:AI满足了对“理想他者”想象,这是人之悲歌吗?

王威廉:AI满足了对“理想他者”想象,这是人之悲歌吗?

在AI时代谈论爱,跟谈论其他很多事物一样,似乎也变得复杂起来。我相信,在此之前,大部分人跟我的观点差不多:爱本质上是人与人之间最深刻的联系,它不仅仅是一种情感体验,更是一种生命的实践方式。嗯,它不仅要求你要心里想着,还要求你要行动起来。传统上,我们认为爱建立在自我与他者的相互作用之上,它是关怀、理解

2025-04-23 08:14:00

高质量发展看长春丨净月高新区:“火眼金睛”“智慧大脑”解锁城市“智”理新技能

高质量发展看长春丨净月高新区:“火眼金睛”“智慧大脑”解锁城市“智”理新技能

习近平总书记指出,要以科技创新引领产业创新,积极培育和发展新质生产力。作为国家自主创新示范区、长春市低空经济示范区,近年来,净月高新区大力发展低空经济,坚持高质量发展和高水平安全并重,加快推动无人机赋能城市治理落地见效。长春农博园园区内,一个外观形似“宝莲灯”的设施竖立在二号馆前,这并不是一个简单的

2025-04-21 09:20:00

山西信托携手老字号助力公益事业

山西信托携手老字号助力公益事业

  日前,山西信托携手太原六味斋实业有限公司,在太原市清徐六味斋食品工业园完成“山西信托·六味兴善慈善信托”项目签约。  作为山西本土老字号与国有金融机构的跨界联动,该慈善信托依托山西信托在金融领域的专业能力,创新采用“慈善+金融”模式,通过专业化、规范化的资金管理,将慈善资源精准投向扶贫济困、助老

2025-04-20 08:20:00