ETL文字データベースの使用を希望される場合は次の使用条件への同意が必要です。
使用条件
- [定義] ETL文字データベース(「本データベース」)は電子技術総合研究所およびその後継組織である独立行政法人産業技術総合研究所によって配布されている手書きおよび印刷文字をスキャンした画像を9つのデータセットにまとめたものを指します。
- [著作権] 本データベースの著作権は独立行政法人産業技術総合研究所が保有しています。
- [使用目的] 本データベースは無料で使用出来ます。
- [参照] 「ETL Character Database」 (一部に限定する場合は「ETLn Character Database」ここでnはデータセットの番号)と明示すれば本データベースを参照すること、また一部を引用することは許諾されるものとします。参考文献を示す場合は次のように示してください:電子技術総合研究所,Japanese Technical Committee for Optical Character Recognition, ETL文字データベース,1973-1984.
- [配布] 本データベースの配布はこのウェブページを経由することとします。引用の範囲を超えたデータおよびダウンロードURLの再配布は認めません。
- [個人情報] 利用者情報は本データベースに関する通知と本データベースの利用統計にのみ使用します。情報の管理については独立行政法人産業技術総合研究所個人情報保護方針に従います。
- [免責] 本データベースおよびダウンロードに伴って損害が生じても産総研は責任を負いません。
- [改訂日] 本データベースの使用条件は2025年3月28日に改定されました。
ファイルフォーマット
各データセットは複数のデータファイルに分割され、ZIPファイルにまとめられています。ZIPファイルには、各データファイルに含まれるレコード数を記載した追加のプレーンテキストファイル(ETLnINFO)も含まれています。
データはすべてバイナリ形式で保存されています。このフォーマットは、データが元々記録されていた磁気テープに由来しています。ファイル内のすべてのレコードは、制御シーケンスなしで同じ固定長を持っています。記憶単位は1バイトあたり8ビットですが、ETL2-5の記憶単位は1バイトあたり6ビットです。ビットオーダーはビッグエンディアンです。データセットによって、いくつかの文字コードを持つ7つの異なるフォーマットがあります。
- M-type (ETL1, ETL6, ETL7), 文字コード: JIS X 0201, extended EBCDIC
- K-type (ETL2), 文字コード: CO-59, T56
- C-type (ETL3, ETL4, ETL5), 文字コード: JIS X 0201, extended EBCDIC, T56
- B-type (ETL8B), 文字コード: JIS X 0208
- G-type (ETL8G), 文字コード: JIS X 0208
- B-type (ETL9B), 文字コード: JIS X 0208
- G-type (ETL9G), 文字コード: JIS X 0208
ファイルの解凍
コンテンツを解凍するには、
unpack_etlcdb.zip (39 downloads )
をダウンロードして解凍します。
pip install -r requirements.txt
を使用して必要なパッケージをインストールします。
たとえば、ファイル ETL1/ETL1_01 を解凍するには、
python unpack.py ETL1/ETL1_01
を実行します。これにより、画像ファイルとメタデータ CSV ファイルを含む ETL1/ETL1_01_unpack という名前のフォルダーが生成されます。画像ファイル名には番号が付けられます (例: 00000.png)。この番号は、CSV ファイルの行インデックスと同じです。入力ファイルのパスは、環境に応じて調整する必要があります。
使用方法は、python unpack.py –help で確認できます。CSV ファイルに書き込むフィールドを指定するには、–fields を使用します。このスクリプトは、Python 3.9 以降で動作します。
他にetlcdb-image-extractor というユーザープロジェクトがあります。