数字中文建设在行动

0次浏览     发布时间:2025-04-01 02:59:00    

为落实《教育强国建设规划纲要(2024—2035年)》,教育部、国家语委、中央网信办近日共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),部署应用关键新技术,构建资源数据新体系,实施赋能全局新行动,全力服务教育强国、科技强国和文化强国建设。

3月31日,教育部召开新闻发布会,介绍推进语言文字信息化发展情况。

明确两步发展阶段

《意见》提出,加强数字中文建设的理念、政策、行动和项目,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会发展中的数据要素价值,着力推进中文数字化与数据中文化,着力推进创新应用与规范安全,着力推进新型中文服务体系构建与语言文字治理体系完善。

《意见》明确两步发展阶段:第一步到2027年,是以数字中文建设为重点的强基示范阶段,形成语言文字信息化推进机制,推动语言文字信息化规范标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强;第二步面向2035年,是全面推进语言文字信息化发展的深化赋能阶段,推动承载中华文化的中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,实现我国语言文字信息化整体水平位居世界前列。

教育部语言文字信息管理司司长刘培俊介绍,重点加强数字中文建设主要有以下考虑:一是中文使命任务重大——今后一个时期,中文服务数字中国建设,加大国家通用语言文字推广力度,深化中华优秀语言文化传承,增进语言文明国际交流互鉴等多项重大任务,更加需要中文数字化赋能。二是中文文化内涵丰富——中文承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品,更加需要中文数字化传播。三是中文使用范围广泛——中文是世界上使用人数最多的语言,是联合国六种工作语言之一,190多个国家和地区开展中文教学,85个国家将中文纳入国家的教育体系,更加需要中文数字化学习。四是中文数据价值突出——大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展,更加需要中文数字化支撑。

从“信息载体”向“生产要素”转型

当前,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。北京大学王选计算机研究所所长汤帜认为,加强数字中文建设将从三个维度推动中文信息处理技术发展进入新阶段。

一是从重要资源转化为数据要素价值。语言文字将从“静态符号”向“动态数字资产”、从“信息载体”向“生产要素”转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等。

二是从广泛存在聚焦到关键领域应用。语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。新形势下,语言文字将实现从符号存储到智能建模的质变,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。

三是从基础支撑提高到赋能全局发展。语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革。语言文字将实现与信息技术的深度融合,要形成“技术突破—场景落地—生态繁荣”的良性循环,打造数字化引领品牌,有力服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步。

建设高质量的语言文化语料资源

语料库是加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展的基础支撑,也是经济社会信息化建设、数字化赋能和智能化发展的基础要素。

然而当前,在语言的教育教学和研究领域,虽然有多个语料库,但很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。

对此,《意见》提出,到2027年初步建成国家关键语料库。刘培俊介绍,启动实施国家关键领域语料库建设计划,在关键学科、重点行业、战略区域、民生期待和社会急需领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。

据介绍,国家关键领域语料库建设立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

(本报北京3月31日电 本报记者 柴如瑾)

相关文章
山东省率先完成12356心理援助热线平台标准化建设

山东省率先完成12356心理援助热线平台标准化建设

近日,山东省在全国率先完成12356心理援助热线平台标准化建设,成为首个按国家数据集标准完成建设且实现全省热线政务外网全覆盖的省份。平台采用“1+16”模式,实现热线数据的互联互通与安全传输。省级热线平台统筹管理全省热线日常工作,负责全省热线数据采集、分析与上报等;16市通过设立分站点平台完成热线本

2025-06-08 07:28:00

【天眼聚焦·长三角】贵州算力品牌建设分享暨招商推介会在上海举办

【天眼聚焦·长三角】贵州算力品牌建设分享暨招商推介会在上海举办

6月6日,为牵引更多长三角企业到贵州进行算力产业布局,由贵州省人民政府驻上海办事处和贵州省大数据局联合主办的“沪黔联动 智算未来”贵州算力品牌建设分享暨招商推介会在上海举办,来自长三角地区的数十家企业参会。会上,省大数据局介绍了贵州算力产业发展的相关情况,贵安新区数据(算力)中心介绍产业集群发展情况

2025-06-07 19:06:00

湖北大数据集团正式成立

湖北大数据集团正式成立

长江商报讯( 通讯员 钟沂伶)6月6日,湖北大数据集团启动运营工作推进会议在武汉召开。湖北大数据集团作为省属一级国有企业,由省政府国资委联合湖北联投集团、长江产业集团、湖北交投集团、湖北文旅集团、湖北宏泰集团、湖北港口集团等6家省属企业共同出资组建,注册资本50亿元。集团履行“数字湖北”“数智湖北”

2025-06-06 17:17:00

微软和CrowdStrike互通黑客识别数据,“去重”80余个威胁方

微软和CrowdStrike互通黑客识别数据,“去重”80余个威胁方

IT之家 6 月 3 日消息,微软与 CrowdStrike 昨日宣布达成一项战略合作,将互通黑客识别数据,帮助双方更方便地识别与应对相同的黑客组织。在当前的网络安全行业中,不同安全公司通常各自采用独立的命名代号来标记各类黑客组织,导致安全公司共享合作情报时经常出现混乱局面。作为这一努力的一部分,微

2025-06-03 08:06:00

马斯克:不想为美国政府所做的一切承担责任

马斯克:不想为美国政府所做的一切承担责任

数据是个宝数据宝投资少烦恼当地时间6月1日,美国企业家埃隆·马斯克在接受美国哥伦比亚广播公司的采访时表示,他不想公开反对美国政府,但也不想为政府所做的一切承担责任。马斯克在采访中表示,他所领导的“政府效率部”成了一切的替罪羊,所有的裁员无论是真是假都被怪罪到了“政府效率部”的头上。此外,马斯克表示,

2025-06-02 13:43:00

生态环境部:将持续完善国家温室气体排放因子数据库

生态环境部:将持续完善国家温室气体排放因子数据库

5月27日上午,国务院新闻办公室举行国务院政策例行吹风会,介绍深化国家级经济技术开发区改革创新有关举措。发布会现场。图/国新网生态环境部科技与财务司司长王志斌在会上表示,为构建完善碳排放统计核算体系,国家发展改革委、生态环境部等部门印发了《完善碳排放统计核算体系工作方案》,系统部署了23项重点任务。

2025-05-27 11:59:00

主动权系于创新力(评论员观察)

主动权系于创新力(评论员观察)

  既拥有强大的科技创新能力,又参与制定引领时代进步的标准,今天的中国,面对激烈的国际竞争,更应勇当重要科技领域的领跑者、新兴前沿领域的开拓者  统筹好基础研究与应用开发、集中攻坚与协同攻关、自立自强与开放合作等关系,始终保持时不我待的精神头,从现实需求、发展需求出发,快马加鞭地创新、创新、再创新 

2025-05-27 09:54:00

出版传媒新势力抢滩“文化产业第一展”

出版传媒新势力抢滩“文化产业第一展”

北京展区高清电子屏幕上循环播放着北京中轴线上的古建筑视频短片,吸引观众在此观看。本报记者 李婧璇 摄  “你感觉哪个馆最好逛?比如文旅融合做得最好的、科技产品最有意思的?”5月24日,来逛第二十一届中国(深圳)国际文化产业博览交易会的赵一鸣,见《中国新闻出版广电报》记者正在拍摄新华报业传媒集团“非遗

2025-05-26 15:33:00