随着人工智能技术的进步,信息智能处理技术得到了飞速发展,特别是基于深度神经网络的方法依靠其强大的建模能力以及海量数据的支撑,在文本、图像、视频、语音等多种模态的信息处理领域取得了巨大的进步,已逐渐取代了基于先验知识的传统算法。随着“一带一路”倡议的提出,面向少数民族地区特色的信息技术应用需求日益增加,开展少数民族语言多模态信息处理应用研究具有重大意义。该研究方向主要包含少数民族语言多模态提取融合技术研究、多民族语言智能语音交互技术研究、多民族语言与汉语之间的机器翻译技术研究三方面研究内容。
(1)少数民族语言多模态提取融合技术研究
开展语音、文本、图像的多模态异构特征提取和融合技术的基础理论研究,在此基础上深入研究少数民族语言的多模态异构特征提取和融合技术,通过语音和图像的多模态融合建立具有面部表情语言的少数民族数字人。同时以互联网中的社会感知数据,即含有特殊内容的图像、视频和文本为研究对象,建立复杂感知数据高效处理的理论和方法,深入研究多模态异构特征的提取和融合、海量多尺度内容识别等关键问题并取得突破,从而对特殊内容图像视频进行处理,高效提取出能够满足民族地区安全需要的知识,为地区公共安全的预警和应急处理提供基础创新理论和关键技术储备,并建立相关敏感数据资源库,服务我国社会的科学化管理。
(2)语音识别与合成及智能语音交互技术研究
根据少数民族语言及其语音的特点,开展多语言少数民族语音语料库构建、连续语音识别与语音合成、语音翻译、多模态语音处理技术等研究,构建跨语言和多语言的少数民族语音人机交互系统。该研究方向重点研究基于小样本学习的民族语言多方言语音识别、多模态音视频语音识别、方言语种识别研究;基于自监督学习的民汉语音翻译方法研究;基于生成式概率图模型的多语言语音表示方法研究;基于多粒度民族语言文本的语音合成研究;开展人机交互系统的研制,开发嵌入式计算机上的听写机系统、说话人识别系统、人机口语对话系统。
(3)多民族语言和汉语之间的机器翻译技术研究
开展面向蒙、藏、维吾尔、朝等多种少数民族语言与汉语之间的机器翻译研究。主要研究内容包括:针对少数民族语言数据稀疏的问题,研究通用的数据增强方法获取低噪声增广数据;针对具有词表小、词频低特性的少数民族低资源机器翻译任务,研究具有普适性表征能力的词嵌入方法;针对黏着语类型少数民族语言(如蒙古语、维吾尔语等)具有较大规模低频词的问题,研究融入切割思想的建模单元设计,从而提升少数民族语言机器翻译效果,解决少数民族语言与汉语之间的语言隔阂问题,推动我国民族地区社会和谐稳定发展。