DB1404数据集是大型手写东巴文单字数据集,通过参照东巴文词典进行人工仿写,后经过单个字符裁剪、灰度化、二值化、尺寸二值化等步骤实现数据集制作。每张东巴文单字图像分辨率均为64×64。共包含445,273张东巴文单字图像,1404个东巴文类别(2546个异体字),每个类别包含103—1091个东巴文单字不等。为了方便研究者使用,所有图片按照东巴文类别存储。该数据集每类东巴文字都有多个变体,以模拟不同的笔迹和写作风格,增加了数据集的多样性。DB1404是目前唯一公开且覆盖东巴文类别最全面的单字数据集。数据集中部分东巴文图像如下图所示。
本数据集经签约授权后可免费用于学术研究目的,但用于商业目的需付费。为使用本数据集,请申请者下载《手写东巴文数据集DB1404学术研究使用申请表》,仔细阅读申请条款,填写完成后扫描此申请表并生成PDF文件,发送邮件到邮箱 202301050@muc.edu.cn,我们将尽快发送数据集。