点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:数字时代的民族古文字研究
首页> 悦读频道> 悦读会 > 正文

数字时代的民族古文字研究

来源:文汇报2023-05-22 10:38

  ■刘凌 刘志基

  中国是一个历史悠久的多民族国家,很多民族在不同历史时期创制并使用自己的民族文字,形成了数量巨大、内容丰富、各具特色的少数民族古文字文献。这些文献是研究相关民族的语言文字、历史文化的最重要的一手资料,承载着各民族独特的血脉,更可与汉文典籍相互勘正补充,具有特殊的文化和学术价值;它们可以真实、全面地揭示各民族关系史,对增强民族团结、维护国家统一、筑牢中华民族文化共同体具有无可替代的作用。

  从二十世纪九十年代至本世纪初的十余年间,这些珍贵的民族古文字文献经历了一个发掘整理的高潮。大量民族古籍获得抢救,其中一部分得到整理、译注与出版,主要表现在满文、藏文、西夏文、蒙古文、彝文、纳西东巴文、水文等文献的整理刊布上。但已抢救资源的现状并不乐观,突出表现在:已抢救资源因缺少专业整理而在各机构大量闲置;一部分古籍老化、破损严重,缺少保护和修复条件;已出版文献多采取直接影印形式,抢救大于整理。在传统模式下,民族古文献的传承与开发已面临困境。

  幸运的是,经过近二三十年的发展,运用数字化、智能识别手段进行民族古文字文献保护和开发已成大势,相比传统模式取得了诸多进展。

  已有的民族古文字文献数字化和智能化建设情况,可以从四个方面加以述评。

  一是民族古文献原貌保真式数字存储。即对民族古文献进行缩微、电子扫描等数字化制作、存储,实现部分民族古文献原貌的保存,这是当前民族古文献数字化的主要方式,着重于资源抢救和保护。

  这类成果普遍存在的问题是:对数字资源缺少系统的整理、校勘与注释,文献编目、索引做不到充分匹配,各单位制作的数字图像质量与整理水平也参差不齐。

  二是民族古文字处理系统开发。包括民族古文字在国际标准字符集的编码、字库建设、文字输入与检索实现,以及民族古文字排版系统开发、字形标准化等,这方面的成果极其丰富。

  然而,对于民族古文字处理系统的研发,各家都有自己的解决方案,可以满足一定范围的使用,但标准不统一、技术不兼容,难以通用共享。另外,大多数文字整理是基于字典、辞书等二手资料,忽略了对面貌复杂的一手文献的精细化整理,导致文字处理系统不能满足实际需要。

  三是民族古文献数据库建设。其中可以分成三大类:民族古文献书目数据库、图像数据库和全文数据库。各机构基本上都是先对古文献进行编目、扫描整理原文图像,然后以书目数据库与原文图像相挂接的模式实现数字化。已有成果集中在材料大宗的藏文、蒙文、西夏文、东巴文、彝文等民族古文献数据库建设上。也有部分民族古文献建立了全文数据库,如藏文典籍和满文档案。

  在数据库建设中,普遍存在着著录标准、书目分类法标准、索引标准不统一的情况;尤其是图像数据,存储格式标准、数字化影像标准不兼容等技术问题,严重影响资源的检索利用和共享。此外,各单位资源重复建设、彼此不开放,也是亟待解决的问题。

  四是民族古文字智能识别研究。目前多种民族古文字都在积极进行文字识别技术的探讨,各家研究最大的关注点,是希望利用图像识别技术实现民族古文献从数字图像自动、批量转换为数字文本,从而大规模建设全文数据库,实现文献批量翻译,满足共享与开发需求。比较成功的例子是中国第一历史档案馆2018年公布的“满文档案图像识别软件系统”,该系统实现了手写体满文批量识别。

  但目前能够实现规模化文字图像识别的民族古文字极少,文字识别带来的实际产出也很少。主要问题有二:首先,文字识别的共同思路,是使用计算机切分、提取字的特征,使其与机器中预先存放的特征集(字库)进行匹配、判别,从而将字图自动转换成文本代码。这需要有预先建立的字库作为训练样本和测试标准,但识别技术研究者所建立的样本数据库容量极小、样本选择不科学,相较民族古文献的实际复杂情况和巨大数量,根本无法支撑起真实存在的民族文字材料的识别。其次,在文字识别的目标上,仅关注文字释读和文献的批量翻译,未能充分发掘文字识别带来的多方面效益。

  综上可见,民族古文献数字化建设具备了一定基础,但整体而言操作有欠条理,投入与产出不成比例,迄今还集中在资料的抢救、整理、输入、排印等初级层面。如何充分借力数字化和智能化手段推进民族古文字相关研究,仍旧是一个严峻的课题。今后的努力方向,至少可以包括以下三个方面。

  首先是统一标准,实现数字资源共存共享。数字化建设在多个方面需要统一标准。一是文字处理标准的统一。各类民族古文字的字符集,都应争取在国际字符集标准中编码,暂时不能编码者,应尽量使用统一字体,或提供跨字体转换的基础条件。二是文献各级分类标准的统一,包括著录标准、书目分类法标准、索引标准,以及对文献内部的字词意义分类、文献类型分类标准等。三是语料的同义认同。不同种类的民族古文字材料,如要实现各种内在关联,就要在共同的分类框架下,通过概念层面的意义分类、语言文字层面的同义系联,实现材料的逐级类聚,使多文种、多类型文献中的语言文字单位找到彼此的同义对应项,从而贯通各类材料,打通数据库内部所有数据的关联。四是数字化处理程度的统一,统一的标准是就高不就低。做到上述标准统一,是实现资源共享的基础。

  另外,应当借助文字智能识别,打通民族古文字的内在关联。民族古文字输入数据库有两种形式,一是文字输入,二是保真的原文图像输入。前者借助电脑字符集的编码,可被计算机自动识别;而图像载体形式的古文字,目前唯有借助图像识别技术,才能创建计算机可以自动识别的信息码,打通数据库全部数据链,进而实现民族文字内部数字资源的彻底关联。

  我们以纳西族东巴文为例来做简单说明。东巴文中表示“杉树”的字,其代表性字形有十来种,可以分为三组:第一组(见图3,图4,图5),第二组(见图6,图7,图8),第三组(见图9,图10)。三组字形分别出自白地、丽江和鲁甸三个地区的东巴经文,呈现出明显的地域特征;而每一组中的字形,又出自同一地域的不同书手,呈现出不同的风格。在对上述文献用字进行一字一码的图像识别后,每一个字形所携带的地域特征、书手风格、文献类型、语境、字际关系等都能够被计算机自动处理,则所有字形图像与其他数字资料的数据关联就能够被打通,智能处理就具有了无限空间。如此处,即可借助图像识别对东巴经文的地域特征、书手特征进行谱系分类研究。反过来,如果采用以往的识别思路,最终结果就是将上述八个字形归属于“杉树”这一抽象的文字单位,识别的意义就只能是局限在经文的解读对译上。

  再及,智能化的助力,可以推动大中华文化视野下的多民族文字综合研究。我国的民族古文字,多数是在以汉字文化为基石的中华民族多元文化融合的历史环境中发生、发展、演变的。这也就意味着,只有将民族古文字相关研究置于中华民族多元文化融合之系统中展开,才能揭示其全貌,也才能在彼此观照中获得对自身更深入的理解。

  知识系统的充分系联与普及,同样要仰赖数字化与智能识别手段。可举一例来说明。水书是水族民间选择时日、择吉避凶的查阅用手抄本,其占卜择日的概念、原理、体系、表达程式等多数来自汉族通书,而汉族通书的源头,可以上溯到先秦日书,如楚简、秦简日书。这是纵向的观察。横向来看,汉族通书明清时期曾在南方少数民族地区广泛传播,水、侗、彝、布依等多个民族的古文献中,都出现通书内容,它们都来自汉文化,并形成了各自的择吉特点。如果我们按前文所说,以统一的标准完成了这些古文字材料的意义逐级分类系联,并实现材料的图像智能识别,那么就可以通过其中任何一种材料的图像识别,实现相同义类的多种古文字材料的系联呈现。

  如水书“赤口时”篇(图1),识别出对应文字为:“春三月辰午时,夏三月午时,秋三月戌时,冬三月丑午时凶,口舌。”意为:新娘忌在这些时辰进亲入宅,犯之则有口舌纷争。该识别结果又可自动关联涉及婚嫁宜忌的其他古文字材料,如睡虎地秦简甲种日书96-101简内容:“春三月辰,夏三月未,秋三月戌,冬三月丑……不可以取妇、家(嫁)女……”;彝文日书《运尼司波》(图2)内容:“冬三月那一季,属牛这天不吉”。这样,不同民族、不同时空的择日条例反映出大体相通的内涵——冬季三个月的丑日婚嫁不吉。这些材料的类比呈现,对于梳理多民族日书的传承流变,其价值是不言而喻的。

  ***

  民族古文字研究的数字化,需要有支持文字识别的大数据平台提供后台支撑,为机器学习与迭代升级不断提供丰富素材;而大数据建设的成果,需借力各种智能化方式,充分开发利用,才能被全面盘活,二者是相互促进、彼此支撑的。在此平台之上,中华民族多元文化融合视野下的民族古文字研究,定将得到长足的发展。

  (作者分别为华东师范大学中国文字研究与应用中心副教授、教授)

[ 责编:张晓荣 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 世界声音,乌镇回响

独家策划

推荐阅读
11月12日至13日,浏阳市委常委、组织部部长、市家居建材产业链链长唐安石带队,市人大常委会党组副书记、副主任、市家居建材产业链副链长张葵红,市人民政府党组成员、副市长、市家居建材产业链副链长谢波等同志参加,赴广东省佛山市开展家居建材产业链招商考察活动。
2024-11-15 17:20
2024年11月12日,江苏省苏州市荷塘月色湿地公园内向日葵竞相绽放,吸引众多游客前来观赏,乐享秋日美景
2024-11-13 15:29
2024年11月12日,湖南省怀化市通道侗族自治县双江镇的烂阳村,山林色彩斑斓,红叶似火,黄叶如金,松柏常青,宛如大自然的调色盘
2024-11-13 15:28
南泥湾是中国军垦、农垦事业的发祥地,是“自力更生、艰苦奋斗”创业精神的发源地。
2024-10-27 17:37
延安地区拥有丰富的煤炭资源,在采矿井约40家,年开采量约5000万吨,但煤质坚硬、自动化程度低等难题严重制约着煤炭产业的发展。
2024-10-27 17:18
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,洛川青怡庄园生物科技有限公司副总裁肖小杰介绍,他们企业的苹果按个卖,一个可以卖到10元。
2024-10-25 18:49
堆积起来的生菌木材冒着热气儿,菌种生产厂房里机器轰鸣,滑子菇大棚里农民忙着收“金疙瘩”。
2024-10-25 18:43
你以为的农村是雨天泥泞,还是道路整洁?爬高上低,还是风景无限?高家原则将山体沟道治理作为城市有机更新和创建文明典范城市抓手,让山体沟道,环境大改善。
2024-10-24 18:11
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安大学经济与管理学院副教授、数字经济专业负责人王珊珊介绍,从卖苹果到卖服务,这是数字技术非常好的一个创新,和产业结合的非常有深度。通过消费者与大自然以及果树的亲密视觉接触,可以提升他们的体验感,增加对苹果这种产品的客户粘性和客户忠诚度。
2024-10-24 18:08
当陕北说书遇到延安美食,碰撞出延安独特的人文魅力。
2024-10-24 18:06
激昂的旋律回荡在空气中,豪迈的歌声飞扬于天地间。壮丽的情怀澎湃在心田里,不朽的精神传承于岁月中……
2024-10-24 17:59
小孩哥小孩姐把安塞腰鼓课间操跳得超燃!
2024-10-24 17:59
青山环绕、绿水蜿蜒,这是吴起南沟村给记者们留下的第一印象。谁能想到,这个位于陕西省延安市吴起县的小村庄,曾经风沙肆虐、植被稀疏。经过二十多年艰辛努力,光秃秃的黄土高坡绿意盎然。
2024-10-24 17:50
在宝塔区河庄坪镇政府的扶持下,延安菌舰生物科技有限公司采用“企业+合作社+农民”模式,带动400余人家门口就业,人均增收2000元。食用菌产业的蓬勃发展,不仅为农民带来稳定收入,更为乡村振兴注入活力。点赞延安菌舰,为农民增收,为乡村添彩!
2024-10-24 17:48
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园,亲身体验石墨烯发热背心,感受科技的温暖拥抱。
2024-10-24 11:18
近期,延安市薛张小流域水土保持项目碳汇交易成功!这不仅是一次生态保护与经济发展的双赢,更为延安乡村振兴注入了新的活力!
2024-10-24 11:16
10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地,在这里记者们亲身体验苹果采摘,倾听果农的心声。同时,记者团还开展了一场特别的直播带货活动,助力果农销售苹果。此次活动不仅展现了果农的辛勤付出,也让更多人了解到延安苹果的魅力,为乡村振兴贡献了一份力量。
2024-10-24 11:07
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传“逐梦之路”媒体采访团走进延安宜川县,追寻“悬崖造林队”的故事。
2024-10-24 10:27
陕北说书最近火爆出圈,董宇辉在直播中表示向往陕北文化,想成为一个陕北说书人。这一段陕北说书,带你行走在延安的绿水青山间。
2024-10-24 10:21
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安数据(集团)有限责任公司董事长高延宏介绍,延安的地域特点适宜建立算力中心,要把平台搭建好,把更多的企业引到延安,建立归属在延安的算力中心,更好的服务延安、服务陕西。
2024-10-24 10:18
加载更多