自由手書き文字データベースETL1

作成経緯

ETL1は、 昭和46年度(1971年度)から始まった 工業技術院大型プロジェクト「パターン情報処理システムの研究開発」 の一環として作成されたもので、 昭和48年度(1973年度)に、 7業種1500人の協力を得て、 英数字、特殊記号および片仮名文字99種の 手書き文字を集めたデータベースです。 このデータは、 数字・英字については見本を示さず、自由に書かれたものです。 OCRシート、観測システムの設計は、 電子技術総合研究所と富士通株式会社との共同で行われ、 電子技術総合研究所図形処理研究室に当時設置されていた コンピュータTOSBAC-3400で観測が行われました。 このデータベースについては、個々の文字を人間が見て評価し、 品質の良さを示す値をID情報の一部として、 観測パターンに付属させて入れてあります。

観測仕様

OCRシート仕様

  • 手書文字読取用紙 : B5判, 90kg OCR用紙(1種)
  • ドロップアウト・カラー : No.26バイオレット 50%スクリーン(大日本印刷)
  • 文字枠 : 横 5mm、縦 7mm
  • 文字枠ピッチ : 横 7.62mm、縦 12.7mm
  • 文字枠数 : 10 x 12 = 120

対象文字 (計 99文字)

  • アラビア数字 : 10
  • アルファベット大文字 : 26
  • 特殊文字 : 12
  • カタカナ : 51

OCRシート収集

観測装置

  • 入力装置 : Flying Spot Scanner (FSS) (飛点走査管 5CNP16) (光電子増倍管 7696)
  • 標本化間隔 : 0.133mm x 0.133mm
  • スポット径 : 0.1333mm
  • 濃度レベル : 16 (4bit)
  • 標本点数 : 72 x 76(後に、中心の 64 x 63 へ)

データベース作成

  • 観測場所 : 電子技術総合研究所
  • 使用計算機 : TOSBAC-3400/41(プログラム:FSSTOMT)
  • 作成年月 : 1973年9月
  • 観測期間 : 1973年9月~12月(~1月~3月)

フォーマット

  • M-Type Data Format (ETL1, ETL6, ETL7)
  • Fixed Record Length without Control Words
  • Logical record length is 2052 bytes (1byte = 8bits)
  • Format of a record:
    Byte Range # of Bytes Type Contents
    1-2 2 Integer Data Index (>=1)
    3-4 2 ASCII Character Name (e.g. “0”, “A”, “$”, “KA”)
    5-6 2 Integer Sheet Index (>=1)
    7 1  Binary  Character Code (JIS X0201)
    8 1  Binary  Character Code (EBCDIC)
    9 1 Integer Evaluation of Individual Character Image (0:clean, 1, 2, 3)
    10 1 Integer Evaluation of Character Group (0:clean, 1, 2)
    11 1 Integer Gender of Writer ( 1:male, 2:female ) (JIS X 0303)
    12 1 Integer Age of Writer
    13-16 4 Integer Serial Data Index (>=1)
    17-18 2 Integer Industry Classification Code (JIS X 0403)
    19-20 2 Integer Occupation Classification Code (JIS X 0404)
    21-22 2 Integer Date of Sheet Gathering (19)YYMM
    23-24 2 Integer Date of Scan (19)YYMM
    25 1 Integer Y Coordinate of Scan Position on Sheet (>= 1)
    26 1 Integer X Coordinate of Scan Position on Sheet (>= 1)
    27 1 Integer Minimum Intensity Level (0 – 255)
    28 1 Integer Maximum Scanned Level (0 – 255)
    29-30 2 Integer (undefined)
    31-32 2 Integer (undefined)
     33-2048  2016 Packed 16 Gray Level (4bit/pixel) Image Data. 64(X-axis size) * 63(Y-axis size) = 4032 pixels.
    2049 – 2052 4 Integer (uncertain)

内容

Contents of ETL1 files:

Filename Categories # Categories Sheets # Sheets # Records
etl1c-01 01234567 8 1001-2960 1445 11560
etl1c-02 89ABCDEF 8 1001-2960 1445 11560
etl1c-03 GHIJKLMN 8 1001-2960 1445 11560
etl1c-04 OPQRSTUV 8 1001-2960 1445 11560
etl1c-05 WXYZ¥+-* 8 1001-2960 1445 11560
etl1c-06 /=()・,␣’ 8 1001-2960 1445 11560
etl1c-07 アイウエオカキク 8 1001-2960 1411 11288
etl1c-08 ケコサシスセソタ 8 1001-2960 1411 11288
etl1c-09 チツテトナニヌネ 8 1001-2960 1411 11287 note: ナ(NA) on Sheet 2672 is missing
etl1c-10 ノハヒフヘホマミ 8 1001-2960 1411 11288
etl1c-11 ムメモヤイユエヨ 8 1001-2960 1411 11288
etl1c-12 ラリルレロワヰウ 8 1001-2960 1411 11287 note: リ(RI) on Sheet 2708 is missing
etl1c-13 ヱヲン 3 1001-2960 1411 4233

List of available sheets:

1001-1026 1028-1149 1151-1243 1301-1306 1308-1316 1318-1355 1357 1360-1391 1393-1436 1438-1453 1455-1459 1461-1491 1501-1525 1527-1658 1660-1663 1665 1667-1695 1701-1766 1801-1837 1839-1884 2001-2019 2021-2025 2027-2153 2201-2391 2501-2696 2701-2744 2801-2802 *2803-2812 2813 *2814 2815-2817 *2818-2840 2901-2960 *: Katakana characters are missing

サンプル

最初の10サンプル(0:白、15:黒) 参考文献

  • 山田博三、森俊二: “手書文字データベースの解析(I)”, 「電総研彙報」, Vol.39, No.8, pp.580–599 (1975-08).
  • 電総研、富士通: “手書文字データ・バンク外部仕様書” (1973-09).