ETL文字データベースとは

「ETL文字データベース」は手書きまたは印刷の英数字、記号、ひらがな、カタカナ、教育漢字、JIS第1水準漢字など、 約120万の文字画像データを収集しています。1973年から1984年にかけて電子技術総合研究所(現 独立行政法人産業技術総合研究所)において、 日本電子工業振興協会 (現 電子情報技術産業協会)・ 大学・民間の研究機関の協力のもとに文字認識研究用に収集され、ETL-1からETL-9の9種類のデータにまとめられています。研究用途に限り、無料で使用することができます。本データベースは磁気テープやCD-Rの郵送によって提供されていましたが2011年4月以降インターネット経由でダウンロードすることが可能になりました。2014年1月にetlcdb.db.aist.go.jpに移行しました。

データベース名 分類名 文字種 筆記者数 全サンプル数 画像サイズ(width, height, bits) 作成年月 ファイル数・形式 参考文献
ETL1 自由手書 99(数字:10,英大文字:26,特殊文字:12,カタカナ:51) 1,445 141,319 64,63,4 ’73-09 13 M [C]p.422, [A]p.594
ETL2 印刷 2184(漢字,ひらがな,カタカナ,英数字,記号) 2(明朝体, ゴシック体) 52,796 60,60,6 ’73-10 5 K [M]p.516, [A]p.597, p.593
ETL3 常用手書 48(数字:10,英大文字:26,特殊文字:12) 200 9,600 72,76,4 ’74-04 2 C [A]p.591, [C]p.428
ETL4 自由手書 ひらがな | 51 120 6,120 72,76,4 ’74-12 1 C [A]p.591, [C]p.430
ETL5 常用手書 カタカナ:51 104 10,608 72,76,4 ’75-02 1 C [A]p.591, [C]p.431
ETL6 常用手書 114(カタカナ:46:数字:10,英大文字 :26,特殊文字:32) 1,383 157,662 64,63,4 ’76-12 12 M [C]p.421
ETL7L 常用手書 48(ひらがな:46,半濁点・濁点:2) 175 16,800 64,63,4 ’77-08 2 M [C]p.422,[D]p.773
ETL7S 2 M
ETL8G 手書 956(教育漢字:881,ひらがな:75) 1,600 152,960 128,127,4 ’80-02 32 G [D]p.755
ETL8B2 64,63,1 ’81-07 3 B [G]p.77
ETL9G 手書 3036(JIS第1水準漢字:2965,ひらがな:71) 4,000 607,200 128,127,4 ’84-03 50 G [L]p.758,[M]p.524
ETL9B 64,63,1 ’84-08 5 B [L]p.764,[M]p.525

ファイル形式とサンプルスクリプト