革新的なソフトウェアで経営課題の解決へ―アシストマイクロ株式会社
AssistMicro

オフィシャルブログ

  • 電子化ラボ
2011-12-28

【電子化ラボ】電子化した紙文書の検索や再利用をする

前回の電子化ラボでは、電子文書と電子化文書の違いについてお話しました。紙の文書をスキャニングして作成した電子化文書(画像データ)は、初めから電子データで作成された電子文書と異なり、そのままでは内容の検索や文字のコピーといった再利用ができません。

icon-smileでも、内容の検索や文章のコピーをしたいから紙文書の電子化を考えることが多いよね。 今回はそれを行うための方法をご紹介します!

まず必要なのは文字データ。電子化した紙文書から文字データを作る。

文書内容の検索にせよ、コピーや編集といった再利用にせよ、まずは文字データ(コード情報)がなければ始まりません。

電子化文書の文字データを作成する方法は、次の2つです。

1.OCRを使用する

OCRとは、Optical Character Recognition、日本語で表すと「光学文字認識」のことで、画像データから文字部分の形状を認識して、該当する文字データに変換する技術のことを指します。

スキャニングした画像データをOCRで処理すると自動的に文字データが作成できます。大量な文書でも、あっという間に文字データを一括で入手することが可能なため、とても便利です。

ただし、注意しなければならないのは、OCRの文字認識率は100%ではないという点です。

文字認識率とは、“文字の形状を正しく認識して文字データに変換する確率”、つまり変換精度のことですが、日本語用OCRはすべての文書を高精度に変換できるほどには至っていないのが現状です。

OCRの認識率は、ソフトウェアの品質や変換エンジンのほか、元となる画像データや文字の状態などさまざまな条件に左右されますが、文章主体の書類を変換した場合、大体90%台の認識率に留まります。活字の文書でこの程度のため、手書き原稿などの場合はもっと低くなります。

icon-troubleたとえば90%って聞くと「すごい!」って思うけど、100文字の文章に10文字間違った字が入っている状態ってことだよね。99%でも100文字に1文字間違いだし…う~ん、ちょっと気になっちゃうかも…

もちろん、OCRでも誤変換のない文字データができることもありますが、誤変換がないかどうかは人によるチェックが必要になりますので、絶対に間違いがあってはいけないものなどの場合は、かえって手間がかかってしまうかもしれません。

OCRには、たとえば文章に特化したものや表組みなどもデータ化できるものなどさまざまな特性をもったものがありますので、電子化したい文書にあわせて適切なOCRを使用することが必要です。

2.文字を手入力する

もう1つの方法は、人によるデータ入力です。OCRで希望にかなう精度の文字データができない場合や、絶対に誤変換があってはいけない文字データが必要な場合は、OCRでできたデータを修正するよりも、初めから入力して文字データを作成する方が効率的です。

人によるデータ入力でも誤入力は発生しますが、ベリファイ入力のような入力方法を用いることで、誤入力箇所をなくし、希望にかなう精度の文字データを作ることができます。

問題は手間がかかることで、人的負担や作業時間がどうしても必要です。自力で行うことが難しい場合は、外部の入力サービスなどの利用が検討できます。

作成した文字データを利用して、電子化文書の検索や再利用を行う。

まず、電子化文書の内容を検索する方法ですが、画像データにOCRや入力した文字データを「透明テキスト」として付与する方法があります。電子化文書に記載されている文章にあわせて、同じ内容の文字データを目には見えないかたちで重ねてあげることで、あたかも電子化画像を検索しているかのように利用できます。

blog_ocrpdf

透明テキストはPDF形式に付与することが一般的です。後から追加するだけでなく、スキャニング時にOCRをかけて、透明テキスト付きPDFを一気に作成してしまうことも可能です。

また、文章のコピーや編集といった再利用に関しては、OCRや手入力などで作成した文字データがあれば、自由に行うことができます。透明テキスト付きPDFから直接文字をコピーすることもできますし、テキスト形式(.txt)として保存し、WordやExcelといったデータに転用することも可能です。

ただ、検索も再利用も文字データの精度に影響を受けますので、電子化の目的にあわせて“どこまで正しい文字データが必要か”を、事前に検討することが大切です。

OCRとデータ入力の使い分けについては、また回を改めてご紹介いたします。

icon-smile2来年もいろいろな情報をお届けするのでお楽しみに! それでは皆さん、よいお年を~♪

by choji