ETL9作成経緯
ETL9は、 工業技術院の委託を受けて、 日本電子工業振興協会に昭和55年(1980年)に設けられた日本語情報処理標準化調査委員会C専門委員会で収集されたデータベースで、 JIS第1水準漢字2965、平仮名71字種の 延べ4000人によるOCRシートを 電子技術総合研究所において、 TOSBAC-40C観測システムにより観測したものです。
観測仕様
OCRシート仕様
- OCRデータ収集用紙 : A4判, kg OCR用紙(特種製紙)(20種)
- ドロップアウト・カラー : No.114レディッシュオレンジ 50%スクリーン(大日本印刷)
- 文字枠: 横 8mm、縦 9mm
- 文字枠ピッチ: 横 10mm、縦 12mm
- 文字枠数: 16 x 20 = 320
対象文字 (計 3,036文字)
- JIS第一水準漢字 : 2,965 (JIS X 0208)(JIS C 6226-83)
- ひらがな : 71
OCRシート収集
- 記入上の制限 : 「ご記入上の注意事項」で指定
- 筆記者数 : 延べ 4,000人
- 全サンプル数 : 607,200
観測装置
- 入力装置 : 128×1点フォトダイオード・アレイセンサ(ADC 6bit)(半導体アレイ レチコン社製 RL-128EC)
- 標本化間隔 : 0.108mm x 0.1016mm
- 濃度レベル : 16 (4bits reduced from 6bits)
- 標本点数 : 128 x 127 = 16,256 pixels
データベース作成
- 観測場所 : 電子技術総合研究所
- 使用計算機 : TOSBAC-40C(プログラム:)
- 作成年月 : 1984年3月
- 観測期間 : 19??年?月~??月
ETL9データベース仕様
- 多値イメージ・ファイルのフォーマット
- 2値イメージ・ファイルのフォーマット
- 2値イメージの2値化しきい値Tはh(判別しきい値[4])とμ(多値イメージの全濃度平均値)とのλ分割点T=λ・h+(1-λ)・μを採用しました[5]。ETL9Bでは、λ=0.4としました。[1][2]
- 収集サンプル(「産」全200サンプル)
参考文献
- 斉藤泰一、山田博三、山本和彦: “JIS第1水準手書漢字データベースETL9とその解析”, 「信学論(D) 画像処理特集号」, Vol.J68-D, No.4, pp.757–764 (1985-04).
- 斉藤泰一、山田博三、山本和彦: “手書文字データベースの解析(VIII) -方向パターン・マッチング法によるJIS第1水準手書漢字データベースETL9の評価-”, 「電総研彙報」, Vol.49, No.7, pp.487–525 (1985-07).
- 斉藤泰一、山本和彦、山田博三: “手書文字データベースの解析(IX) -データベースETL9とその見本文字について-”, 「電総研彙報」, Vol.50, No.4, pp.259–263 (1986-04).
- 大津展之: “判別および最小2乗規準に基づく自動しきい値選定法”, 「信学論(D)」, Vol.63-D, No.4, pp.349–356 (1980-04).
- 斉藤泰一、山田博三: “判別しきい値選定法の一改良”, 「情報処理学会論文誌(情処学論)」, Vol.22, No.6, pp.596–599 (1981-11).