「ETL文字データベース」は手書きまたは印刷の英数字、記号、ひらがな、カタカナ、教育漢字、JIS第1水準漢字など、 約120万の文字画像データを収集しています。1973年から1984年にかけて電子技術総合研究所(現 独立行政法人産業技術総合研究所)において、 日本電子工業振興協会 (現 電子情報技術産業協会)・ 大学・民間の研究機関の協力のもとに文字認識研究用に収集され、ETL-1からETL-9の9種類のデータにまとめられています。本データベースは磁気テープやCD-Rの郵送によって提供されていましたが2011年4月以降インターネット経由でダウンロードすることが可能になりました。
「ETL文字データベース」は、 オフライン文字認識アルゴリズムの性能を比較可能にするための 共通データとして収集したものであり、 筆記者に記入して頂いたOCR用紙、あるいは、 漢字が印刷されている(ETL2)用紙をスキャナで観測したものです。 ETL1~ETL9はどれも多値ですが、 ETL8とETL9は2値(ETL8B、ETL9B)も公開しています。 1文字パターンの大きさは、データベースによって、 60x60、64x63、72x76、128x127pixelsの種類があります。 各文字パターンにはID情報が付加されており、そこに正解コードが含まれています。 1つの文字パターンとID情報を1レコードとし、 複数のレコードをまとめて1ファイルとしています。
データベース名 | 分類名 | 文字種 | 筆記者数 | 全サンプル数 | 画像サイズ(width, height, bits) | 作成年月 | ファイル数・形式 | 参考文献 |
ETL1 | 自由手書† | 99(数字:10,英大文字:26,特殊文字:12,カタカナ:51) | 1,445 | 141,319 | 64,63,4 | ’73-09 | 13 M | [C]p.422, [A]p.594 |
ETL2 | 印刷 | 2184(漢字,ひらがな,カタカナ,英数字,記号) | 2(明朝体, ゴシック体) | 52,796 | 60,60,6 | ’73-10 | 5 K | [M]p.516, [A]p.597, p.593 |
ETL3 | 常用手書† | 48(数字:10,英大文字:26,特殊文字:12) | 200 | 9,600 | 72,76,4 | ’74-04 | 2 C | [A]p.591, [C]p.428 |
ETL4 | 自由手書1 | ひらがな | 51 | 120 | 6,120 | 72,76,4 | ’74-12 | 1 C | [A]p.591, [C]p.430 |
ETL5 | 常用手書† | カタカナ:51 | 104 | 10,608 | 72,76,4 | ’75-02 | 1 C | [A]p.591, [C]p.431 |
ETL6 | 常用手書† | 114(カタカナ:46:数字:10,英大文字 :26,特殊文字:32) | 1,383 | 157,662 | 64,63,4 | ’76-12 | 12 M | [C]p.421 |
ETL7L | 常用手書†‡ | 48(ひらがな:46,半濁点・濁点:2) | 175 | 16,800 | 64,63,4 | ’77-08 | 2 M | [C]p.422,[D]p.773 |
ETL7S | 2 M | |||||||
ETL8G | 手書 | 956(教育漢字:881,ひらがな:75) | 1,600 | 152,960 | 128,127,4 | ’80-02 | 32 G | [D]p.755 |
ETL8B2 | 64,63,1 | ’81-07 | 3 B | [G]p.77 | ||||
ETL9G | 手書 | 3036(JIS第1水準漢字:2965,ひらがな:71) | 4,000 | 607,200 | 128,127,4 | ’84-03 | 50 G | [L]p.758,[M]p.524 |
ETL9B | 64,63,1 | ’84-08 | 5 B | [L]p.764,[M]p.525 |
†「ETL文字データベース」 のデータ収集時、 文字筆記者に見本文字を見せたものが「常用手書き」、 見本文字を見せなかったものが「自由手書き」としています。 ただし、文字の形を見せないと、 書く場所の指定が難しい場合(ETL1の片仮名)があり、 その区別はあまり厳密ではありません。「常用手書き」用の収集用紙は、文字記入枠の上部に見本文字を印刷してあります。 各文字サンプルに対する正解コードを付加し易くするためです。
‡ 基本的に一人の筆者は同じ文字を一回しか書いていません。例外はETL7で、一枚のシートにひらがなを二回書いています。