「ETL文字データベース」は手書きまたは印刷の英数字、記号、ひらがな、カタカナ、教育漢字、JIS第1水準漢字など、 約120万の文字画像データを収集しています。1973年から1984年にかけて電子技術総合研究所(現 独立行政法人産業技術総合研究所)において、 日本電子工業振興協会 (現 電子情報技術産業協会)・ 大学・民間の研究機関の協力のもとに文字認識研究用に収集され、ETL-1からETL-9の9種類のデータにまとめられています。本データベースは磁気テープやCD-Rの郵送によって提供されていましたが2011年4月以降インターネット経由でダウンロードすることが可能になりました。
「ETL文字データベース」は、 オフライン文字認識アルゴリズムの性能を比較可能にするための 共通データとして収集したものであり、 筆記者に記入して頂いたOCR用紙、あるいは、 漢字が印刷されている(ETL2)用紙をスキャナで観測したものです。 ETL1~ETL9はどれも多値ですが、 ETL8とETL9は2値(ETL8B、ETL9B)も公開しています。 1文字パターンの大きさは、データベースによって、 60x60、64x63、72x76、128x127pixelsの種類があります。 各文字パターンにはID情報が付加されており、そこに正解コードが含まれています。 1つの文字パターンとID情報を1レコードとし、 複数のレコードをまとめて1ファイルとしています。
各データセットの概要
- ETL1
- 分類名:自由手書†
- 文字種:99(数字:10,英大文字:26,特殊文字:12,カタカナ:51)
- 筆記者数:1,445
- 全サンプル数:141,319
- 画像サイズ(width×height×bits):64×63×4
- 作成年月:1973-09
- ファイル数・形式:13, M-Type
- 参考文献:[C]p.422, [A]p.594
- ETL2
- 分類名:印刷
- 文字種:2184(漢字,ひらがな,カタカナ,英数字,記号)
- 筆記者数:2(明朝体, ゴシック体)
- 全サンプル数:52,796
- 画像サイズ(width×height×bits):60×60×6
- 作成年月:1973-10
- ファイル数・形式:5, K-Type
- 参考文献:[M]p.516, [A]p.597, p.593
- ETL3
- 分類名:常用手書†
- 文字種:48(数字:10,英大文字:26,特殊文字:12)
- 筆記者数:200
- 全サンプル数:9,600
- 画像サイズ(width×height×bits):72×76×4
- 作成年月:1974-04
- ファイル数・形式:2, C-Type
- 参考文献:[A]p.591, [C]p.428
- ETL4
- 分類名:自由手書1
- 文字種:51(ひらがな)
- 筆記者数:120
- 全サンプル数:6,120
- 画像サイズ(width×height×bits):72×76×4
- 作成年月:1974-12
- ファイル数・形式:1, C-Type
- 参考文献:[A]p.591, [C]p.430
- ETL5
- 分類名:常用手書†
- 文字種:51(カタカナ)
- 筆記者数:104
- 全サンプル数:10,608
- 画像サイズ(width×height×bits):72×76×4
- 作成年月:1975-02
- ファイル数・形式:1, C-Type
- 参考文献:[A]p.591, [C]p.431
- ETL6
- 分類名:常用手書†
- 文字種:114(カタカナ:46:数字:10,英大文字 :26,特殊文字:32)
- 筆記者数:1,383
- 全サンプル数:157,662
- 画像サイズ(width×height×bits):64×63×4
- 作成年月:1976-12
- ファイル数・形式:12, M-Type
- 参考文献:[C]p.421
- ETL7L, ETL7S
- 分類名:常用手書†‡
- 文字種:48(ひらがな:46,半濁点・濁点:2)
- 筆記者数:175
- 全サンプル数:16,800
- 画像サイズ(width×height×bits):64×63×4
- 作成年月:1977-08
- ファイル数・形式:2×2, M-Type
- 参考文献:[C]p.422,[D]p.773
- ETL8 (ETL8G, ETL8B2)
- 分類名:手書
- 文字種:956(教育漢字:881,ひらがな:75)
- 筆記者数:1,600
- 全サンプル数:152,960
- ETL8G
- 画像サイズ(width×height×bits):128×127×4
- 作成年月:1980-02
- ファイル数・形式:32, G-Type
- 参考文献:[D]p.755
- ETL8B2
- 画像サイズ(width×height×bits):64×63×1
- 作成年月:1981-07
- ファイル数・形式:3, B-Type
- 参考文献:[G]p.77
- ETL9 (ETL9G, ETL9B)
- 分類名:手書
- 文字種:3036(JIS第1水準漢字:2965,ひらがな:71)
- 筆記者数:4,000
- 全サンプル数:607,200
- ETL9G
- 画像サイズ(width×height×bits):128×127×4
- 作成年月:1984-03
- ファイル数・形式:32, G-Type
- 参考文献:[L]p.758, [M]p.524
- ETL9B
- 画像サイズ(width×height×bits):64×63×1
- 作成年月:1984-08
- ファイル数・形式:5, B-Type
- 参考文献:[L]p.764, [M]p.525
†「ETL文字データベース」 のデータ収集時、 文字筆記者に見本文字を見せたものが「常用手書き」、 見本文字を見せなかったものが「自由手書き」としています。 ただし、文字の形を見せないと、 書く場所の指定が難しい場合(ETL1の片仮名)があり、 その区別はあまり厳密ではありません。「常用手書き」用の収集用紙は、文字記入枠の上部に見本文字を印刷してあります。 各文字サンプルに対する正解コードを付加し易くするためです。
‡ 基本的に一人の筆者は同じ文字を一回しか書いていません。例外はETL7で、一枚のシートにひらがなを二回書いています。