JIS第一水準手書き漢字データベースETL9

ETL9作成経緯

ETL9は、 工業技術院の委託を受けて、 日本電子工業振興協会に昭和55年(1980年)に設けられた日本語情報処理標準化調査委員会C専門委員会で収集されたデータベースで、 JIS第1水準漢字2965、平仮名71字種の 延べ4000人によるOCRシートを 電子技術総合研究所において、 TOSBAC-40C観測システムにより観測したものです。

観測仕様

OCRシート仕様

  • OCRデータ収集用紙 : A4判, kg OCR用紙(特種製紙)(20種)
  • ドロップアウト・カラー : No.114レディッシュオレンジ 50%スクリーン(大日本印刷)
  • 文字枠: 横 8mm、縦 9mm
  • 文字枠ピッチ: 横 10mm、縦 12mm
  • 文字枠数: 16 x 20 = 320

対象文字 (計 3,036文字)

  • JIS第一水準漢字 : 2,965 (JIS X 0208)(JIS C 6226-83)
  • ひらがな : 71

OCRシート収集

観測装置

  • 入力装置 : 128×1点フォトダイオード・アレイセンサ(ADC 6bit)(半導体アレイ レチコン社製 RL-128EC)
  • 標本化間隔 : 0.108mm x 0.1016mm
  • 濃度レベル : 16 (4bits reduced from 6bits)
  • 標本点数 : 128 x 127 = 16,256 pixels

データベース作成

  • 観測場所 : 電子技術総合研究所
  • 使用計算機 : TOSBAC-40C(プログラム:)
  • 作成年月 : 1984年3月
  • 観測期間 : 19??年?月~??月

ETL9データベース仕様

Gray level image file format / 多値イメージ・ファイルのフォーマット

G-type Data Format	(ETL9)

1. File Format (Fixed Record Length without Control Words)

                   <----------> Logical record (8199 bytes) (1byte = 8bits)
     ------------------------------------------------------------------
     |  Sample 1  |  Sample 2  |  Sample 3  |    ....    |  Sample N  |  (No. of records = N)
     ------------------------------------------------------------------

2. Contents of Logical Record (8199 bytes)

 --------------------------------------------------------------------------------------------
|             |Number|        |                                                              |
|     Byte    |  of  |  Type  |            Contents of Logical Record                        |
|   Position  | Bytes|        |                                                              |
|============================================================================================|
|    1 -    2 |    2 | Integer| Serial Sheet Number (greater than or equal to 1)            n|
|    3 -    4 |    2 | Binary | JIS Kanji Code (JIS X 0208)                                  |
|    5 -   12 |    8 | ASCII  | JIS Typical Reading ( ex. "AI.MEDER" )                       |
|I  13 -   16 |    4 | Integer| Serial Data Number (greater than or equal to 1)             n|
|D  17        |    1 | Integer| Evaluation of Individual Character Image (>= 0)             n|
|   18        |    1 | Integer| Evaluation of Character Group (greater than or equal to 0)  n|
|P  19        |    1 | Integer| Male-Female Code ( 1=male, 2=female ) (JIS X 0303)          n|
|a  20        |    1 | Integer| Age of Writer                                               n|
|r  21 -   22 |    2 | Integer| Industry Classification Code (JIS X 0403)                   n|
|t  23 -   24 |    2 | Integer| Occupation Classification Code (JIS X 0404)                 n|
|   25 -   26 |    2 | Integer| Sheet Gatherring Date (19)YYMM                              n|
|   27 -   28 |    2 | Integer| Scanning Date (19)YYMM                                       |
|   29        |    1 | Integer| Sample Position X on Sheet (greater than or equal to 0)      |
|   30        |    1 | Integer| Sample Position Y on Sheet (greater than or equal to 0)      |
|   31 -   64 |   34 |        | (undefined)                                                 n|
|-------------|------|--------|--------------------------------------------------------------|
|   65 - 8192 | 8128 | Packed | 16 Gray Level (4bit/pixel) Image Data                        |
|             |      |        | 128(X-axis size) * 127(Y-axis size) = 16256 pixels           |
|-------------|------|--------|--------------------------------------------------------------|
| 8193 - 8199 |    7 |        | (uncertain)                                                 n|
 --------------------------------------------------------------------------------------------

app. Contents of Files

 --------------------------------------------------------------------------------------------
|  File    |  Number | No. of |  Number  |           | Number |                              |
|    Name  |    of   | Categ- |    of    |  Data Set |   of   |                              |
|          | Records |  ories | Data Sets|   Number  | Sheets |                              |
|============================================================================================|
| ETL9G-01 |  12144  |  3036  |     4    |   1 -   4 |   80   |                              |
| ETL9G-02 |  12144  |  3036  |     4    |   5 -   8 |   80   |                              |
|    :     |    :    |    :   |     :    |     :     |    :   |                              |
| ETL9G-50 |  12144  |  3036  |     4    | 197 - 200 |   80   |                              |
 --------------------------------------------------------------------------------------------
/---[form_e9b.htm 2001-09.04]-----------------------------------------------------------------

				B-Type Data Format	(ETL9)

1. File Format (Fixed Record Length without Control Words)

                   <----------> Logical record ( 576 bytes) (1byte = 8bits)
     ------------------------------------------------------------------
     |   Dummy    |  Sample 1  |  Sample 2  |    ....    |  Sample N  |  (No. of records = N+1)
     ------------------------------------------------------------------

2. Contents of Logical Record (576 bytes)

 --------------------------------------------------------------------------------------------
|             |Number|        |                                                              |
|     Byte    |  of  |  Type  |            Contents of Logical Record                        |
|   Position  | Bytes|        |                                                              |
|============================================================================================|
|I   1 -    2 |    2 | Integer| Serial Sheet Number (greater than or equal to 1)             |
|D   3 -    4 |    2 | Binary | JIS Kanji Code (JIS X 0208)                                  |
|    5 -    8 |    4 | ASCII  | JIS Typical Reading ( ex. "AI.M" )                           |
|-------------|------|--------|--------------------------------------------------------------|
|    9 -  512 |  504 | Packed | 2 Level (1bit/pixel) Image Data                              |
|             |      |        | 64(X-axis size) * 63(Y-axis size) = 4032 pixels              |
|-------------|------|--------|--------------------------------------------------------------|
|  513 -  576 |   64 |        | (uncertain)                                                  |
 --------------------------------------------------------------------------------------------

app. Contents of Files

 --------------------------------------------------------------------------------------------
|  File     |  No. of   |  No. of  |  Data Set | No. of |                                    |
|    Name   |  Records  | Data Sets|   Number  | Sheets |                                    |
|============================================================================================|
| ETL9B-1   | 1+ 121440 |    40    |   1 -  40 |   800  | '1+' means 1st record is dummy     |
| ETL9B-2   | 1+ 121440 |    40    |  41 -  80 |   800  |                                    |
| ETL9B-3   | 1+ 121440 |    40    |  81 - 120 |   800  |                                    |
| ETL9B-4   | 1+ 121440 |    40    | 121 - 160 |   800  |                                    |
| ETL9B-5   | 1+ 121440 |    40    | 161 - 200 |   800  |                                    |
|           |    + 3036 |   + 1    | uncertain |  + 20  | Last 3036 samples = Model Images   |
|--------------------------------------------------------------------------------------------|
| ETL9B-1.1 | 1+  60720 |    20    |   1 -  20 |   400  | '1+' means 1st record is dummy     |
| ETL9B-1.2 | 1+  60720 |    20    |  21 -  40 |   400  |                                    |
| ETL9B-2.1 | 1+  60720 |    20    |  41 -  60 |   400  |                                    |
| ETL9B-2.2 | 1+  60720 |    20    |  61 -  80 |   400  |                                    |
| ETL9B-3.1 | 1+  60720 |    20    |  81 - 100 |   400  |                                    |
| ETL9B-3.2 | 1+  60720 |    20    | 101 - 120 |   400  |                                    |
| ETL9B-4.1 | 1+  60720 |    20    | 121 - 140 |   400  |                                    |
| ETL9B-4.2 | 1+  60720 |    20    | 141 - 160 |   400  |                                    |
| ETL9B-5.1 | 1+  60720 |    20    | 161 - 180 |   400  |                                    |
| ETL9B-5.2 | 1+  60720 |    20    | 181 - 200 |   400  |                                    |
|           |    + 3036 |   + 1    | uncertain |  + 20  | Last 3036 samples = Model Images   |
 --------------------------------------------------------------------------------------------

------------------------------------------------------------[form_e9b.htm]-------------------/
        2値イメージの2値化しきい値Tは、
        h(判別しきい値[4])とμ(多値イメージの全濃度平均値)とのλ分割点
            T=λ・h+(1-λ)・μ
        を採用しました。[5]
        ETL9Bでは、λ=0.4としました。[1][2]

参考文献

  1. 斉藤泰一、山田博三、山本和彦: “JIS第1水準手書漢字データベースETL9とその解析”, 「信学論(D) 画像処理特集号」, Vol.J68-D, No.4, pp.757–764 (1985-04).
  2. 斉藤泰一、山田博三、山本和彦: “手書文字データベースの解析(VIII) -方向パターン・マッチング法によるJIS第1水準手書漢字データベースETL9の評価-”, 「電総研彙報」, Vol.49, No.7, pp.487–525 (1985-07).
  3. 斉藤泰一、山本和彦、山田博三: “手書文字データベースの解析(IX) -データベースETL9とその見本文字について-”, 「電総研彙報」, Vol.50, No.4, pp.259–263 (1986-04).
  4. 大津展之: “判別および最小2乗規準に基づく自動しきい値選定法”, 「信学論(D)」, Vol.63-D, No.4, pp.349–356 (1980-04).
  5. 斉藤泰一、山田博三: “判別しきい値選定法の一改良”, 「情報処理学会論文誌(情処学論)」, Vol.22, No.6, pp.596–599 (1981-11).