动态新闻

动态新闻

当前位置: 首页 > 动态新闻 > 正文

“民族语言智能分析与安全治理”教育部重点实验室 面向社会公开DB1404——手写东巴文单字数据集

发布日期:2024-03-30    作者:     来源:     点击:

2024年3月,“民族语言智能分析与安全治理”教育部重点实验室面向社会公开大型手写东巴文单字数据集——DB1404。该数据集在国家社科重大基金项目“基于人工智能技术的东巴文机器释读研究”(20&ZD279)的支持下,参照东巴文词典通过人工仿写制作完成,旨在提供一个多样化的东巴文手写字符集合,可用于人工智能背景下的东巴文单字研究。该数据集共包含445,273张东巴文单字图像,1404个东巴文类别(2546个异体字),每个类别包含103—1091个东巴文单字不等,是目前唯一公开且覆盖东巴文类别最为全面的手写单字数据集。该数据集经申请授权后可免费用于学术研究,具体下载方式详见重点实验室网站数据资源栏(https://mzyy.muc.edu.cn/)。

东巴文被国际学界誉为研究人类文字起源和发展的“活化石”,2003年东巴古籍被联合国教科文组织列为“世界记忆遗产”,其在世界语言文字研究中占据重要地位且具有较大影响力。DB1404数据集的发布可以促进东巴文的学术研究,不仅对理解东巴文字具有重要意义,更对中华民族文化的传承和发展有着深远的影响。“民族语言智能分析与安全治理”教育部重点实验室希望通过此次数据集的公开,让更多的专家学者分享这一宝贵资源,在东巴文的智能分析领域共同取得进一步的突破,这对探索古文字之谜也具有非常重要的借鉴意义。


返回顶部