(To English)

「ETL文字データベース」(etlcdb)

(お知らせ)   (個人情報保護)

[Original Site] [Mirror1] [Mirror2] [Mirror3]

aist logo
************ 関連WEB
*HP+JEIDA'93 文字・文書データベース利用申請
*gtbin 2値化評価用データベース
*util 画像データ用ユティリティ・プログラム
*cdbstat 「ETL文字データベース」利用統計

1.「ETL文字データベース」とは?

電子技術総合研究所 (現在・産業技術総合研究所 つくば中央第2)において、 日本電子工業振興協会 (現在・電子情報技術産業協会)、 大学、民間の研究機関等の協力のもとに、 パターン認識の1分野である文字認識研究用に収集された、 手書き英数字、ひらがな、カタカナ、教育漢字、JIS第1水準漢字、印刷漢字など、 約120万サンプルの文字パターンデータを納めたデータベースで、 ETL1〜ETL9の9種類があり、 データベース自身は、無料で使用することができます。

2.「ETL文字データベース」を利用するには?

利用申請書類が、apform.htmにあり、
この中の、howtoget.htm に詳しい申請手順が記載されています。

3.「ETL文字データベース」は、どんなデータ?

「ETL文字データベース」は、 オフライン文字認識アルゴリズムの性能を比較可能にするための 共通データとして収集したものであり、 筆記者に記入して頂いたOCR用紙、あるいは、 漢字が印刷されている(ETL2)用紙をスキャナで観測したものです。 ETL1〜ETL9はどれも多値ですが、 ETL8とETL9は2値(ETL8B、ETL9B)も公開しています。 1文字パターンの大きさは、データベースによって、 60x60、64x63、72x76、128x127pixelsの種類があります。 各文字パターンにはID情報が付加されており、そこに正解コードが含まれています。 1つの文字パターンとID情報を1レコードとし、 複数のレコードをまとめて1ファイルとしています。

各データベース個別の情報は、下記をご覧下さい。

[ ETL1 | ETL2 | ETL3 | ETL4 | ETL5 | ETL6 | ETL7 | ETL8 | ETL9 | {ETLN} ]
[ Questions and Answers ]

AIST 文字データベース担当





(To Japanese)

"ETL character databases" (etlcdb)

(News)   (Privacy Policy)

[Original Site] [Mirror1] [Mirror2] [Mirror3]

aist symbol
************ Related WEB
*HP+JEIDA'93 Application for the other databases
*gtbin Grand truth for binarization
*util Utilities for image data
*cdbstat Statistics on use of "ETL character databases"

1. What are "ETL character databases" ?

"ETL character databases" were collected in Electrotechnical Laboratory (the present, Tsukuba Central 2, National Institute of Advanced Industrial Science and Technology (AIST)) under the cooperation with Japan Electronic Industry Developement Association (the present, Japan Electronics and Information Technology Industries Association), universities and the other research organizations. These databases ETL1 - ETL9 contain about 1.2 million hand-written and machine-printed character images which include Japanese, Chinese, Latin and Numeric characters for character recognition researches. The databases are freely available for research purposes.

2. How to obtain "ETL character databases" ?

Application form is in the apform.htm.
How to apply is mentioned in detail at howtoget.htm.

3. What kind of data are "ETL character databases" ?

"ETL character databases" were collected as the common data to make it possible to compare the performance of off-line character recognition algorithms. Character images of the databases were got by observing OCR sheets or Kanji printed sheets with a scanner. All databases ETL1 - ETL9 are gray-valued image data. About ETL8 and ETL9, two-valued image data (ETL8B and ETL9B) are open to the public, too. There are 60x60, 64x63, 72x76 and 128x127 pixels in the kind of the character image size. The character image files consist of more than one record which has a character image and ID information with a correct code.

Information by each database individual is to see the following.

[ ETL1 | ETL2 | ETL3 | ETL4 | ETL5 | ETL6 | ETL7 | ETL8 | ETL9 | {ETLN} ]
[ Questions and Answers ]

Group in charge of character databases, AIST



access count: index.htm 0000 , since May 19, 2003.