ETL9は、 工業技術院の委託を受けて、 日本電子工業振興協会に昭和55年(1980年)に設けられた 日本語情報処理標準化調査委員会C専門委員会で収集されたデータベースで、 JIS第1水準漢字2965、平仮名71字種の 延べ4000人によるOCRシートを 電子技術総合研究所において、 TOSBAC−40C観測システムにより観測したものです。
OCRシート仕様
OCRデータ収集用紙 : A4判, kg OCR用紙(特種製紙)(20種)
ドロップアウト・カラー : No.114レディッシュオレンジ 50%スクリーン(大日本印刷)
文字枠 : 横 8mm、縦 9mm
文字枠ピッチ : 横 10mm、縦 12mm
文字枠数 : 16 x 20 = 320
対象文字 (計 3,036文字)
JIS第一水準漢字 : 2,965 (JIS X 0208)(JIS C 6226-83)
ひらがな : 71
OCRシート収集
記入上の制限 : 「ご記入上の注意事項」で指定
筆記者数 : 延べ 4,000人
全サンプル数 : 607,200
観測装置
入力装置 : 128x1点フォトダイオード・アレイセンサ
(ADC 6bit)(半導体アレイ レチコン社製 RL-128EC)
標本化間隔 : 0.108mm x 0.1016mm
濃度レベル : 16 (4bit <-- 6bit)
標本点数 : 128 x 127 = 16,256 pixels
データベース作成
観測場所 : 電子技術総合研究所
使用計算機 : TOSBAC-40C(プログラム:)
作成年月 : 1984年3月
観測期間 : 19??年?月〜??月
2値イメージの2値化しきい値Tは、
h(判別しきい値[d])とμ(多値イメージの全濃度平均値)とのλ分割点
T=λ・h+(1−λ)・μ
を採用しました。[e]
ETL9Bでは、λ=0.4としました。[a][b]