ETL文字データベース

「ETL文字データベース」は手書きまたは印刷の英数字、記号、ひらがな、カタカナ、教育漢字、JIS第1水準漢字など、 約120万の文字画像データを収集しています。1973年から1984年にかけて電子技術総合研究所(現 独立行政法人産業技術総合研究所)において、 日本電子工業振興協会 (現 電子情報技術産業協会)・ 大学・民間の研究機関の協力のもとに文字認識研究用に収集され、ETL-1からETL-9の9種類のデータにまとめられています。本データベースは磁気テープやCD-Rの郵送によって提供されていましたが2011年4月以降インターネット経由でダウンロードすることが可能になりました。

「ETL文字データベース」は、 オフライン文字認識アルゴリズムの性能を比較可能にするための 共通データとして収集したものであり、 筆記者に記入して頂いたOCR用紙、あるいは、 漢字が印刷されている(ETL2)用紙をスキャナで観測したものです。 ETL1~ETL9はどれも多値ですが、 ETL8とETL9は2値(ETL8B、ETL9B)も公開しています。 1文字パターンの大きさは、データベースによって、 60x60、64x63、72x76、128x127pixelsの種類があります。 各文字パターンにはID情報が付加されており、そこに正解コードが含まれています。 1つの文字パターンとID情報を1レコードとし、 複数のレコードをまとめて1ファイルとしています。

データベース名分類名文字種筆記者数全サンプル数画像サイズ(width, height, bits)作成年月ファイル数・形式参考文献
ETL1自由手書99(数字:10,英大文字:26,特殊文字:12,カタカナ:51)1,445141,31964,63,4’73-0913 M[C]p.422, [A]p.594
ETL2印刷2184(漢字,ひらがな,カタカナ,英数字,記号)2(明朝体, ゴシック体)52,79660,60,6’73-105 K[M]p.516, [A]p.597, p.593
ETL3常用手書48(数字:10,英大文字:26,特殊文字:12)2009,60072,76,4’74-042 C[A]p.591, [C]p.428
ETL4自由手書1ひらがな | 511206,12072,76,4’74-121 C[A]p.591, [C]p.430
ETL5常用手書カタカナ:5110410,60872,76,4’75-021 C[A]p.591, [C]p.431
ETL6常用手書114(カタカナ:46:数字:10,英大文字 :26,特殊文字:32)1,383157,66264,63,4’76-1212 M[C]p.421
ETL7L常用手書48(ひらがな:46,半濁点・濁点:2)17516,80064,63,4’77-082 M[C]p.422,[D]p.773
ETL7S2 M
ETL8G手書956(教育漢字:881,ひらがな:75)1,600152,960128,127,4’80-0232 G[D]p.755
ETL8B264,63,1’81-073 B[G]p.77
ETL9G手書3036(JIS第1水準漢字:2965,ひらがな:71)4,000607,200128,127,4’84-0350 G[L]p.758,[M]p.524
ETL9B64,63,1’84-085 B[L]p.764,[M]p.525

†「ETL文字データベース」 のデータ収集時、 文字筆記者に見本文字を見せたものが「常用手書き」、 見本文字を見せなかったものが「自由手書き」としています。 ただし、文字の形を見せないと、 書く場所の指定が難しい場合(ETL1の片仮名)があり、 その区別はあまり厳密ではありません。「常用手書き」用の収集用紙は、文字記入枠の上部に見本文字を印刷してあります。 各文字サンプルに対する正解コードを付加し易くするためです。

‡ 基本的に一人の筆者は同じ文字を一回しか書いていません。例外はETL7で、一枚のシートにひらがなを二回書いています。


上部へスクロール