少数民族古籍文献是我国历史发展进程中形成的独具特色的精神文化载体,凝聚了少数民族几千年来所创造的精神财富,是中华优秀传统文化的重要组成部分,也是研究中华民族共同体发展历史的宝贵资料。近年来,国家持续加大对少数民族古籍文献的保护与传承力度,特别提出要运用现代科学技术提高保护水平的新要求,因此少数民族古籍文献智能分析与机器翻译既符合国家对非物质文化遗产保护与传承的迫切要求,又顺应了当代科学技术的发展趋势,是国家需求牵引的发展方向。重点实验室面向少数民族古籍文献图像修复、少数民族古籍的单字识别、少数民族古籍机器翻译展开研究。
(1)少数民族古籍文献的数字化平台构建技术研究
将针对稀缺的少数民族古籍文献开展数字化平台建设。以东巴文、古彝文、水文和满文为研究对象,对海量的古籍文献图像进行分类、标定及应用分析;在标定的基础上,提取少数民族古籍的数字特征,利用数字特征实现包括国家领土安全、地方志、民间传统节日等古籍内容的快速检索和历史佐证,使得中华优秀文化资源为国家战略服务。为此,需要研究以下四个关键技术:1)素材池元数据描述及元数据管理关键技术研究; 2)少数民族古籍文字大数据智能代理关键技术研究; 3)网络环境下的多源异构民族古籍文字内容快速检索技术研究; 4)多源异构民族古籍文字资源池元数据处理关键技术研究。
(2)少数民族古籍文献的智能分析技术研究
根据少数民族古籍文献的特点,开展古籍图像修复、古籍文字识别以及古籍文本的自动断句与文字切分研究。少数民族古籍文献历史悠久且保存条件简陋,经常出现页面磨损、污渍以及边缘不同程度破损等现象,导致采集图像存在文字信息缺失和大量噪声干扰的问题;同时,受采集设备、拍摄光照环境等影响,采集古籍图像的四周区域会出现不同程度的阴影干扰甚至出现字迹模糊现象。为此,将开展古籍图像清晰度修复和残缺文字图像修复两个方面的研究工作。在此基础上,将研究古籍文本的自动断句与文字切分任务,实现古籍图像的单句和单字的自动提取,为实现古籍单字识别打下基础。针对少数民族古籍文献存有大量象形文字和手写文字形式,其较大的随意性较大增加了古籍文字识别的难度,为此将重点研究少数民族象形文字古籍如东巴文、古彝文和水文的单字识别以及满文等手抄本文字的单字识别。
(3)少数民族古籍文献的机器翻译技术研究
针对少数民族古籍释义的随机性、复杂性以及古籍传承者和专业人士稀缺问题,利用机器学习、大数据分析等先进的信息处理手段,开展少数民族语言古籍文献的智能释读与机器翻译研究。将以东巴文、古彝文、水文以及满文为研究重点,针对少数民族古籍所涉及的语言大多重语义而轻语法,缺乏明显的句型句式和固定词组的问题,研究少数民族古籍的词组挖掘技术,为机器翻译提供重要的辅助语料;研究基于大模型的机器翻译技术、预训练—微调迁移学习技术,以实现语义表达准确、语句符合中文语境的机器翻译效果。