作成経緯
ETL1は、 昭和46年度(1971年度)から始まった 工業技術院大型プロジェクト「パターン情報処理システムの研究開発」 の一環として作成されたもので、 昭和48年度(1973年度)に、 7業種1500人の協力を得て、 英数字、特殊記号および片仮名文字99種の 手書き文字を集めたデータベースです。 このデータは、 数字・英字については見本を示さず、自由に書かれたものです。 OCRシート、観測システムの設計は、 電子技術総合研究所と富士通株式会社との共同で行われ、 電子技術総合研究所図形処理研究室に当時設置されていた コンピュータTOSBAC-3400で観測が行われました。 このデータベースについては、個々の文字を人間が見て評価し、 品質の良さを示す値をID情報の一部として、 観測パターンに付属させて入れてあります。
観測仕様
OCRシート仕様
- 手書文字読取用紙 : B5判, 90kg OCR用紙(1種)
- ドロップアウト・カラー : No.26バイオレット 50%スクリーン(大日本印刷)
- 文字枠 : 横 5mm、縦 7mm
- 文字枠ピッチ : 横 7.62mm、縦 12.7mm
- 文字枠数 : 10 x 12 = 120
対象文字 (計 99文字)
- アラビア数字 : 10
- アルファベット大文字 : 26
- 特殊文字 : 12
- カタカナ : 51
OCRシート収集
- 記入上の制限 : 「手書文字読取用紙記入上のお願い」で指定
- 筆記者数 : 1,445人
- 全サンプル数 : 141,319
観測装置
- 入力装置 : Flying Spot Scanner (FSS) (飛点走査管 5CNP16) (光電子増倍管 7696)
- 標本化間隔 : 0.133mm x 0.133mm
- スポット径 : 0.1333mm
- 濃度レベル : 16 (4bit)
- 標本点数 : 72 x 76(後に、中心の 64 x 63 へ)
データベース作成
- 観測場所 : 電子技術総合研究所
- 使用計算機 : TOSBAC-3400/41(プログラム:FSSTOMT)
- 作成年月 : 1973年9月
- 観測期間 : 1973年9月~12月(~1月~3月)
フォーマット
- M-Type Data Format (ETL1, ETL6, ETL7)
- Fixed Record Length without Control Words
- Logical record length is 2052 bytes (1byte = 8bits)
- Big Endian
- Python スクリプト
内容
Filename | Categories | # Categories | Sheets | # Sheets | # Records |
etl1c-01 | 01234567 | 8 | 1001-2960 | 1445 | 11560 |
etl1c-02 | 89ABCDEF | 8 | 1001-2960 | 1445 | 11560 |
etl1c-03 | GHIJKLMN | 8 | 1001-2960 | 1445 | 11560 |
etl1c-04 | OPQRSTUV | 8 | 1001-2960 | 1445 | 11560 |
etl1c-05 | WXYZ\+-* | 8 | 1001-2960 | 1445 | 11560 |
etl1c-06 | /=()・,?’ | 8 | 1001-2960 | 1445 | 11560 |
etl1c-07 | アイウエオカキク | 8 | 1001-2960 | 1411 | 11288 |
etl1c-08 | ケコサシスセソタ | 8 | 1001-2960 | 1411 | 11288 |
etl1c-09 | チツテトナニヌネ | 8 | 1001-2960 | 1411 | 11287 note: ナ(NA) on Sheet 2672 is missing |
etl1c-10 | ノハヒフヘホマミ | 8 | 1001-2960 | 1411 | 11288 |
etl1c-11 | ムメモヤイユエヨ | 8 | 1001-2960 | 1411 | 11288 |
etl1c-12 | ラリルレロワヰウ | 8 | 1001-2960 | 1411 | 11287 note: リ(RI) on Sheet 2708 is missing |
etl1c-13 | ヱヲン | 3 | 1001-2960 | 1411 | 4233 |
有効なシート番号:
1001-1026 1028-1149 1151-1243 1301-1306 1308-1316 1318-1355 1357 1360-1391 1393-1436 1438-1453 1455-1459 1461-1491 1501-1525 1527-1658 1660-1663 1665 1667-1695 1701-1766 1801-1837 1839-1884 2001-2019 2021-2025 2027-2153 2201-2391 2501-2696 2701-2744 2801-2802 *2803-2812 2813 *2814 2815-2817 *2818-2840 2901-2960
*: カタカナが欠損
サンプル
最初の10サンプル(0:白、15:黒)
参考文献
- 山田博三、森俊二: “手書文字データベースの解析(I)”, 「電総研彙報」, Vol.39, No.8, pp.580–599 (1975-08).
- 電総研、富士通: “手書文字データ・バンク外部仕様書” (1973-09).