革新的なソフトウェアで経営課題の解決へ―アシストマイクロ株式会社
AssistMicro

オフィシャルブログ

  • 電子化ラボ
2012-01-31

【電子化ラボ】OCRと手入力、それぞれの活用シーン

こんにちは電子化ラボのコーナーです。 前回の記事では、電子化した紙文書の内容を検索したり、コピーなどをして再利用したりする場合、OCRや人による手入力で文字データを作成することが必要というお話をしました。

では、OCRと手入力、それぞれどのようなケースで選ばれているのでしょうか。 弊社電子化サービスの利用例をもとにご紹介したいと思います。

こんなときはOCR 「文書の内容を簡単に全文検索したい」(低コストで検索可能なデータを作成)

OCRを使用するのは、やっぱり「文書の内容を検索したい」というケースです。 このような場合は、透明テキスト付PDFがよく採用されます。

紙文書の電子化時にOCRをかけ、自動的に文字データを生成することで、文章量が大量でも比較的コストを抑えて全文検索可能な電子化データを作れること、これが大きなメリットです。

この方法で電子化した場合に効果が高いものは、活字の文章が中心の文書です。たとえば、民間企業の報告書や学術機関の各種論文などが挙げられます。また、機関リポジトリ用のコンテンツデータでも、博士論文や紀要などを透明テキスト付PDF形式に電子化することが多いようです。

デメリットとしては、OCRによる自動変換のため、誤変換されてしまった箇所については検索にひっかからないという点です。

より高精度なデータにしたい場合は、OCRの誤変換箇所を修正する、初めから手入力で高精度の文字データを作成する、といった対応が必要になりますが、その分作業が増加してしまうため、コストと効果のバランスをふまえてOCRによる自動変換で透明テキスト付PDFに電子化する方法がよく利用されます。

web_ocrpdf-search

icon-smile 上は、同じ「データ」という単語が一か所だけうまく変換できなかった例です。同じ「ー」(長音記号)がひとつだけ「一」(漢数字の1)に変換された原因は、たとえばこの文字の近くにインクのはねなどが入ってしまって漢数字の「一」のかたちに見えた、というようなことが考えられるよ。 こんなふうにOCRは、たとえば文字色と紙色のコントラスト比とか、原稿の汚れ、行や文字の間隔、フォントの種類…いろんな要素で認識率が変わっちゃうんだ。 だから僕たちの場合はサービスの前に、お客様の文書をOCR変換したサンプルデータを作って見てもらうようにしてます!そうすれば実際にどんな変換精度になるか事前に確認できるからね♪

こんなときは手入力 「文書の内容を新たな形で活用したい」(高精度なデータを確実に作成)

一方、紙文書の内容を再利用したい場合は高精度なデータがいるため、人手によるデータ入力が適しています。

OCRによる自動変換では、100%の認識率で文字データを生成することが難しいため、初めから入力スキルの高い人間が手入力で文字データを作成する方が、効率的で確実といえます。

特に、

「技術資料の中身を更新して外部に公開したいけど、紙の資料しかない」 「紙の文庫本しか残ってないけど、印刷用の版下データを作りたい」

といったようなケースでは、手入力による文字データ作成が利用されています。

手入力の場合、複数担当者による入力と突合チェックによって誤入力箇所をなくしていく方式(ベリファイ入力)で、必要な文字精度の文字データを作成できる点がメリットです。99.99%以上の高い認識率も実現可能です。

デメリットは、人手による作業のため、OCRでの自動変換よりコストがかかってしまうことです。

blog_verify1

まとめ

今回ご紹介した例は対照的なもので、実際にはケースバイケースになります。たとえば、「全文検索は完全じゃなくていいからできるようにしたいけど、この部分の情報については確実に検索できるようにしたい」といった場合は、OCRによる透明テキス付PDFの作成とあわせて検索キーとなる情報は手入力を行う、という電子化データの作り方が考えられます。

icon-normalやっぱり、“電子化データをどんなふうに使いたいか”ってところが大事なんだね。 どんな目的で電子化を活用しているのかは導入事例のページでも紹介しているよ。 みなさんの参考になったらうれしいなぁ。

by choji