聚优号

以数智之笔绘中文发展新卷

时间:2025-04-09 06:53:00

来源:人民日报海外版

今年2月,游客在河南安阳市中国文字博物馆参观。新华社发 麻翛然摄

2024年12月,在埃塞俄比亚亚的斯亚贝巴大学,孔子学院老师宋瑞荣(右)在教室与学生互动。新华社记者 刘方强摄

近日,教育部、国家语委、中央网信办共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(简称《意见》),对加快推进以信息化促进语言文字事业高质量发展,以数字化赋能语言文字更好服务现代化建设等作出了全面部署。

当敦煌藏经洞的千年文书在数字世界中苏醒,甲骨文的刻痕以数据跃动永驻云端……数字中文,正以代码为笔、算法为墨,在虚实交织中联结过去与未来。

数智赋能语言文字高质量发展

语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。

如今,中国已建成世界最大的规模语言资源库和中国语言资源知识图谱,集成120多种语言和方言资源。今年,全国语言文字使用情况调查将首次实施,打造集数据采集、传输、存储、加工一体的集成化调查平台,为深化教育综合改革和综合国力分析提供大数据支撑。

为加快推进语言文字信息化,《意见》提出,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,着力推进中文数字化与数据中文化,完善新型中文服务体系构建与语言文字治理体系。

教育部语言文字信息管理司司长刘培俊介绍,中国已发布100多项国家通用语言文字和民族语言文字信息化规范标准,为自然语言处理技术在人工智能、数字产品和信息产业领域的应用创新奠定规范基础。

语言文字智慧化学习的广泛开展,有力服务了教育改革创新。比如,高水平开展普通话水平测试,全面实现从人工到智能的普通话测试方式转变,制发电子证书9000多万份。在广东,已建成全国首个普通话水平测试智慧考场,考场首创“随到随考”测试模式,大幅提升了普通话测试效率。

语言文明智能化传播联通世界,也有力服务了国际交流互鉴。通过数字赋能,书写在古籍里的文字实现“活化”,建成中华思想文化术语数据库,面向国际传播1200多条反映中华民族话语体系中最核心最本质的思想文化术语,并与40多个国家和地区开展多语种数字版权合作。

“中国已建成集成化、智能化、国际化的全球中文学习平台,用户超1600万人,覆盖190多个国家和地区,深度合作建立联盟,中文学习联盟云服务平台提供3万门在线课程,与中外1600多家机构合作,推动实现中文人人、时时、处处可学可用、易学易用。”刘培俊说。

建设新型国家语料库

今年,教育部启动布局了新型国家语料库的建设工作。《意见》明确,到2027年,初步建成国家关键语料库和国家战略语言资源信息库。

新型国家语料库为什么如此重要?又将在语言文字信息化工作中发挥何种作用?

“当前以深度求索(DeepSeek)等为代表的人工智能技术创新不断取得突破性进展,在这个大背景下,国家提出这样一个战略部署,建设新型国家语料库,凸显了其重要性、必要性和紧要性。”教育部语言文字应用管理司副司长王晖如是说。

现阶段,语言教育教学和研究领域存在多个语料库,但很多语料库还处于单一文本模式和领域应用阶段。这些语料库在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面尚存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。

找准这一难点,王晖介绍,建设新型国家语料库立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

“主要包括两方面:一是规范引领,主要是加强制度的供给,研制语料库建设规范,突出价值导向、应用导向、创新导向,统筹质量和安全,为语料库建设提供基础原则和方法指引。二是示范引导,成熟先上,开发建设‘中华文脉新型语料库’‘中华大阅读体系语料库’,以这两个示范库建设整体打造出标杆,‘中华文脉新型语料库’也可以简单理解瞄准的是智慧教师,‘中华大阅读体系语料库’瞄准的是智慧学伴。”王晖说。

数字中文推动产业升级

20世纪80年代,北京大学王选团队发明激光照排技术,并结合汉字编码标准,突破了中文数字化的空间限制,让承载中华文化的中文在全球互联网空间获得新生。那是一场从“铅与火”到“光与电”的变革,而如今,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。

历史阶段不同,但机遇和挑战相似。

北京大学王选计算机研究所所长汤帜认为,当前,中文信息处理技术的发展从以往解决汉字输入输出的基础性问题,进阶到当先释放语言文字数据要素价值的全方位突破。

《意见》提出,实施数字中文推动产业升级行动。支持语言文字信息技术新产品、新职业和新业态发展,鼓励传统语言产业数字化转型升级,培育基于数字中文的新型语言产业。推动语言资源、语言翻译、智能机器人、中文内容服务等软硬件产品研发应用,支持围绕语音、语料、语言应用生态形成产业聚集,鼓励创建语言产业应用示范品牌。

“新形势下,语言文字将从实现‘静态符号’向‘动态数字资产’,从‘信息载体’向‘生产要素’的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。”汤帜表示,人工智能发展迅速,语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革,语言文字未来将实现与信息技术的深度融合,形成“技术突破—场景落地—生态繁荣”的良性循环。(本报记者 孙亚慧)

《人民日报海外版》(2025年04月09日第10版)

相关推荐
多方共话AI场景化应用 双流举办人工智能生态建设沙龙

多方共话AI场景化应用 双流举办人工智能生态建设沙龙

红星新闻网(记者 覃霞)4月29日报道 29日,成都市双流区发改局联合赛迪工业和信息化研究院(集团)四川有限公司主办,成都市双流区经济和信息化局、成都芯谷发展服务局、中科芯未来微电子科技成都有限公司支持的“跨界融合・创新无界——人工智能场景化应用与产业生态共建”主题沙龙活动在中科芯未来会议厅举办。活

2025-04-30 11:33:00

巴西外长:金砖国家能够且应当成为一股向善力量

巴西外长:金砖国家能够且应当成为一股向善力量

据外交部网站消息,当地时间4月28日,金砖国家外长会晤第一阶段会议在里约热内卢举行。巴西外长维埃拉主持,各方围绕金砖国家在推进和平与安全中的作用进行了讨论。当地时间4月28日,巴西里约热内卢,巴西外交部长毛罗·维埃拉在伊塔马拉提宫出席金砖国家外长会议并发表讲话。图源:视觉中国据巴西《环球报》报道,维

2025-04-30 07:55:00

刚刚,新疆突发地震!

刚刚,新疆突发地震!

速报参数:据中国地震台网正式测定,4月28日19时27分在新疆和田地区洛浦县发生3.2级地震,震源深度18公里,震中位于北纬36.89度,东经80.13度。 基础背景震中地形:震中5公里范围内平均海拔约1764米。 历史地震:根据中国地震台网速报目录,震中周边200公里内近5年来发生3级以上地震共

2025-04-28 20:49:00

国家发改委、央行最新回应

国家发改委、央行最新回应

国务院新闻办公室于4月28日上午10时举行新闻发布会,请国家发展改革委副主任赵辰昕、人力资源社会保障部副部长俞家栋、商务部副部长盛秋平、中国人民银行副行长邹澜介绍稳就业稳经济推动高质量发展政策措施有关情况,并答记者问。美国国际市场新闻社记者提问:第一个问题是,近期美国国债和美元汇率市场出现大幅振荡,

2025-04-28 16:16:00

打造“更秀美、更科技、更中国”的邮轮体验!第二艘国产大型邮轮爱达·花城号完成坞内起浮

打造“更秀美、更科技、更中国”的邮轮体验!第二艘国产大型邮轮爱达·花城号完成坞内起浮

深圳商报·读创客户端记者 陈发清4月28日,爱达邮轮(Adora Cruises)宣布旗下第二艘国产大型邮轮爱达·花城号(Adora Flora City)在中国船舶集团上海外高桥造船有限公司顺利完成坞内起浮,正式转入内装和系统调试的关键阶段。爱达·花城号将在空间设计、智能科技与邮轮体验上进行全面升

2025-04-28 10:43:00