ETL8は、 日本電子工業振興協会OCR用手書文字専門委員会において、 昭和55年(1980年)に、 OCRユーザ・メーカ・名古屋大学・その他、 1600人の方々から収集したOCRシートを、 電子技術総合研究所において、 TOSBAC−40C観測システムにより観測したデータベースで、 教育漢字881字種、平仮名75字種が納められています。
OCRシート仕様
OCRデータ収集用紙 : A4判, 83kg OCR用紙(特種製紙)(10種)
ドロップアウト・カラー : No.114レディッシュオレンジ 50%スクリーン(大日本印刷)
文字枠 : 横 10mm、縦 10mm
文字枠ピッチ : 横 12.7mm、縦 15.24mm
文字枠数 : 13 x 16 = 208
対象文字 (計 956文字)
教育漢字 : 881 (昭和23年内閣告示第1号「当用漢字別表」による)
ひらがな : 75
OCRシート収集
記入上の制限 : 「手書き漢字OCR用紙記入のお願い」で指定
筆記者数 : 延べ 1,600人
全サンプル数 : 152,960
データ収集 : 日本電子工業振興協会 OCR手書文字専門委員会、名古屋大学
観測装置
入力装置 : 128x1点フォトダイオード・アレイセンサ
(ADC 6bit)(半導体アレイ レチコン社製 RL-128EC)
標本化間隔 : 0.108mm x 0.1016mm
濃度レベル : 16 (4bit <-- 6bit)
標本点数 : 128 x 127 = 16,256 pixels
データベース作成
観測場所 : 電子技術総合研究所
使用計算機 : TOSBAC-40C(プログラム:)
作成年月 : 1980年2月
観測期間 : 1980年2月〜??月
2値イメージの2値化しきい値Tは、
h(判別しきい値[j])とμ(多値イメージの全濃度平均値)とのλ分割点
T=λ・h+(1−λ)・μ
を採用しました。[k]
ETL8B2では、λ=0.25としました。[c]