「ＪＩＳ第一水準手書き漢字データベースＥＴＬ９」

★ＥＴＬ９作成経緯

ＥＴＬ９は、工業技術院の委託を受けて、日本電子工業振興協会に昭和５５年（１９８０年）に設けられた日本語情報処理標準化調査委員会Ｃ専門委員会で収集されたデータベースで、ＪＩＳ第１水準漢字２９６５、平仮名７１字種の延べ４０００人によるＯＣＲシートを電子技術総合研究所において、ＴＯＳＢＡＣ－４０Ｃ観測システムにより観測したものです。

★観測仕様

    ＯＣＲシート仕様
        ＯＣＲデータ収集用紙   : A4判, kg OCR用紙（特種製紙）（20種）
        ドロップアウト・カラー : No.114レディッシュオレンジ 50%スクリーン（大日本印刷）
        文字枠                 : 横 8mm、縦 9mm
        文字枠ピッチ           : 横 10mm、縦 12mm
        文字枠数               : 16 x 20 = 320

    対象文字 (計 3,036文字)
        ＪＩＳ第一水準漢字 : 2,965 (JIS X 0208)(JIS C 6226-83)
        ひらがな           :    71

    ＯＣＲシート収集
        記入上の制限 : 「ご記入上の注意事項」で指定
        筆記者数     : 延べ 4,000人
        全サンプル数 : 607,200

    観測装置
        入力装置   : 128x1点フォトダイオード・アレイセンサ
                     (ADC 6bit)(半導体アレイ レチコン社製 RL-128EC)
        標本化間隔 : 0.108mm x 0.1016mm
        濃度レベル : 16 (4bit <-- 6bit)
        標本点数   : 128 x 127 = 16,256 pixels

    データベース作成
        観測場所   : 電子技術総合研究所
        使用計算機 : TOSBAC-40C（プログラム：）
        作成年月   : 1984年3月
        観測期間   : 19??年?月～??月

★ＥＴＬ９データベース仕様

Gray level image file format / 多値イメージ・ファイルのフォーマット

Two-valued image file format / ２値イメージ・ファイルのフォーマット

        ２値イメージの２値化しきい値Ｔは、
        ｈ（判別しきい値[d]）とμ（多値イメージの全濃度平均値）とのλ分割点
            Ｔ＝λ・ｈ＋（１－λ）・μ
        を採用しました。[e]
        ETL9Bでは、λ＝0.4としました。[a][b]

収集サンプル（「産」全２００サンプル）

★参考文献

斉藤泰一、山田博三、山本和彦: "JIS第1水準手書漢字データベースETL9とその解析", 「信学論(D) 画像処理特集号」, Vol.J68-D, No.4, pp.757--764 (1985-04).
斉藤泰一、山田博三、山本和彦: "手書文字データベースの解析(VIII) －方向パターン・マッチング法によるJIS第1水準手書漢字データベースETL9の評価－", 「電総研彙報」, Vol.49, No.7, pp.487--525 (1985-07).
斉藤泰一、山本和彦、山田博三: "手書文字データベースの解析(IX) －データベースETL9とその見本文字について－", 「電総研彙報」, Vol.50, No.4, pp.259--263 (1986-04).
大津展之: "判別および最小2乗規準に基づく自動しきい値選定法", 「信学論(D)」, Vol.63-D, No.4, pp.349--356 (1980-04).
斉藤泰一、山田博三: "判別しきい値選定法の一改良", 「情報処理学会論文誌(情処学論)」, Vol.22, No.6, pp.596--599 (1981-11).