ETL文字データベース

「ETL文字データベース」は手書きまたは印刷の英数字、記号、ひらがな、カタカナ、教育漢字、JIS第1水準漢字など、 約120万の文字画像データを収集しています。1973年から1984年にかけて電子技術総合研究所(現 独立行政法人産業技術総合研究所)において、 日本電子工業振興協会 (現 電子情報技術産業協会)・ 大学・民間の研究機関の協力のもとに文字認識研究用に収集され、ETL-1からETL-9の9種類のデータにまとめられています。本データベースは磁気テープやCD-Rの郵送によって提供されていましたが2011年4月以降インターネット経由でダウンロードすることが可能になりました。

「ETL文字データベース」は、 オフライン文字認識アルゴリズムの性能を比較可能にするための 共通データとして収集したものであり、 筆記者に記入して頂いたOCR用紙、あるいは、 漢字が印刷されている(ETL2)用紙をスキャナで観測したものです。 ETL1~ETL9はどれも多値ですが、 ETL8とETL9は2値(ETL8B、ETL9B)も公開しています。 1文字パターンの大きさは、データベースによって、 60x60、64x63、72x76、128x127pixelsの種類があります。 各文字パターンにはID情報が付加されており、そこに正解コードが含まれています。 1つの文字パターンとID情報を1レコードとし、 複数のレコードをまとめて1ファイルとしています。


各データセットの概要

  • ETL1
    • 分類名:自由手書
    • 文字種:99(数字:10,英大文字:26,特殊文字:12,カタカナ:51)
    • 筆記者数:1,445
    • 全サンプル数:141,319
    • 画像サイズ(width×height×bits):64×63×4
    • 作成年月:1973-09
    • ファイル数・形式:13, M-Type
    • 参考文献:[C]p.422, [A]p.594
  • ETL2
    • 分類名:印刷
    • 文字種:2184(漢字,ひらがな,カタカナ,英数字,記号)
    • 筆記者数:2(明朝体, ゴシック体)
    • 全サンプル数:52,796
    • 画像サイズ(width×height×bits):60×60×6
    • 作成年月:1973-10
    • ファイル数・形式:5, K-Type
    • 参考文献:[M]p.516, [A]p.597, p.593
  • ETL3
    • 分類名:常用手書
    • 文字種:48(数字:10,英大文字:26,特殊文字:12)
    • 筆記者数:200
    • 全サンプル数:9,600
    • 画像サイズ(width×height×bits):72×76×4
    • 作成年月:1974-04
    • ファイル数・形式:2, C-Type
    • 参考文献:[A]p.591, [C]p.428
  • ETL4
    • 分類名:自由手書1
    • 文字種:51(ひらがな)
    • 筆記者数:120
    • 全サンプル数:6,120
    • 画像サイズ(width×height×bits):72×76×4
    • 作成年月:1974-12
    • ファイル数・形式:1, C-Type
    • 参考文献:[A]p.591, [C]p.430
  • ETL5
    • 分類名:常用手書
    • 文字種:51(カタカナ)
    • 筆記者数:104
    • 全サンプル数:10,608
    • 画像サイズ(width×height×bits):72×76×4
    • 作成年月:1975-02
    • ファイル数・形式:1, C-Type
    • 参考文献:[A]p.591, [C]p.431
  • ETL6
    • 分類名:常用手書
    • 文字種:114(カタカナ:46:数字:10,英大文字 :26,特殊文字:32)
    • 筆記者数:1,383
    • 全サンプル数:157,662
    • 画像サイズ(width×height×bits):64×63×4
    • 作成年月:1976-12
    • ファイル数・形式:12, M-Type
    • 参考文献:[C]p.421
  • ETL7L, ETL7S
    • 分類名:常用手書
    • 文字種:48(ひらがな:46,半濁点・濁点:2)
    • 筆記者数:175
    • 全サンプル数:16,800
    • 画像サイズ(width×height×bits):64×63×4
    • 作成年月:1977-08
    • ファイル数・形式:2×2, M-Type
    • 参考文献:[C]p.422,[D]p.773
  • ETL8 (ETL8G, ETL8B2)
    • 分類名:手書
    • 文字種:956(教育漢字:881,ひらがな:75)
    • 筆記者数:1,600
    • 全サンプル数:152,960
    • ETL8G
      • 画像サイズ(width×height×bits):128×127×4
      • 作成年月:1980-02
      • ファイル数・形式:32, G-Type
      • 参考文献:[D]p.755
    • ETL8B2
      • 画像サイズ(width×height×bits):64×63×1
      • 作成年月:1981-07
      • ファイル数・形式:3, B-Type
      • 参考文献:[G]p.77
  • ETL9 (ETL9G, ETL9B)
    • 分類名:手書
    • 文字種:3036(JIS第1水準漢字:2965,ひらがな:71)
    • 筆記者数:4,000
    • 全サンプル数:607,200
    • ETL9G
      • 画像サイズ(width×height×bits):128×127×4
      • 作成年月:1984-03
      • ファイル数・形式:32, G-Type
      • 参考文献:[L]p.758, [M]p.524
    • ETL9B
      • 画像サイズ(width×height×bits):64×63×1
      • 作成年月:1984-08
      • ファイル数・形式:5, B-Type
      • 参考文献:[L]p.764, [M]p.525

†「ETL文字データベース」 のデータ収集時、 文字筆記者に見本文字を見せたものが「常用手書き」、 見本文字を見せなかったものが「自由手書き」としています。 ただし、文字の形を見せないと、 書く場所の指定が難しい場合(ETL1の片仮名)があり、 その区別はあまり厳密ではありません。「常用手書き」用の収集用紙は、文字記入枠の上部に見本文字を印刷してあります。 各文字サンプルに対する正解コードを付加し易くするためです。

‡ 基本的に一人の筆者は同じ文字を一回しか書いていません。例外はETL7で、一枚のシートにひらがなを二回書いています。


上部へスクロール