革新的なソフトウェアで経営課題の解決へ―アシストマイクロ株式会社
AssistMicro

オフィシャルブログ

  • 電子化ラボ
2011-11-30

【電子化ラボ】「電子文書」と「電子化文書」(画像データ)の違い

こんにちは。

アシストマイクロでは、海外ソフトウェアの販売代理自社システムの開発のほかに、紙文書のスキャニングや既存データの変換などを行う電子化サービスをご提供しています。

今回から始まります、「電子化ラボ」のコーナーでは、ドキュメントソリューションセンターの公式キャラクター「でんシカ」と一緒に、電子化や文書管理に関する豆知識やTipsなど、さまざまなテーマを取りあげてご紹介していこうと思います。

icon-smile2はじめまして、でんシカです!ぼくもまだ勉強中だけど、がんばってお手伝いしていきます。よろしくね。

「電子文書」(コード情報)と「電子化文書」(イメージ情報)

さて、今回のテーマは日常的によく使用されているデジタル形式の文書についてです。

こんな経験はありませんか?

「このPDFの資料は参考になるなぁ。ここの文章をコピーしてメモに残しておこう!」

→そう思って文章にポインタをあわせてクリックしても、文字を選ぶこともコピーすることもできなかった。

「○○について説明している箇所を拾い読みしたいから検索しよう!」

→そう思って記載されているキーワードを検索ウィンドウに入力してもまったく検索にひっかからず、検索結果は"該当なし"だった。

デジタル形式の文書なら、文章のコピーや内容の検索は自由にできるはずなのに、何故だろう…? このようなケースでは、その文書が“画像データであること”が原因のひとつとして考えられます。

デジタル形式の文書は大きくわけて2種類ある

パソコンやインターネットで取り扱うデジタル形式の文書には、大きくわけて、初めからデジタルデータとして作成された「電子文書(コード情報)」と、紙などのアナログ媒体で作られている文書をスキャニングして作成された「電子化文書(画像データ=イメージ情報)」があります。

電子文書は、パソコンなどで文書作成用のソフトウェアやアプリケーションを使用して作られています。最初から電子データで作成されているので、「ボーン・デジタル(Born-digital)」とも呼ばれます。WordやPages、一太郎などのワープロソフトのほか、表計算ソフト、プレゼンテーションソフト、DTPソフトなど、さまざまな種類があります。

このような電子データは、キーボードなどの入力機器で作成されるため、初めからコード情報(文字コード)を保有しています。文書内の文字情報は“文字データ”として作られているため、検索やコピーなどが自由に行えます。

これに対して、紙の資料をスキャニングしたり、フィルムの文書をコンバートしたりすることで作成される「電子化文書」は、TiffやJpegなどの画像データでできています。画像データですから、文書に記載されている文字情報や図表もただの画像の一部でしかなく、文字を選択してコピーすることや内容を検索することはできません。

icon-normal紙にプリントした資料やデジタルカメラで撮った書類の写真じゃ、文字を選択したり検索したりできないのと同じだね。

電子文書フォーマット・PDFの場合

では、電子文書フォーマットとして一般的なPDFの場合はどうでしょうか。PDFは、文字コードの電子文書からでも画像データの文書からでも作成することができます。ただし、文書に記載されている文字情報を検索やコピーできるかどうかは、“もととなった電子データがコード情報(文字データ)をもっていること”によって左右されます。

たとえば、Word文書をPDFに変換した場合、文書内に記載されている文字情報はもともと文字データですので、基本的にはそのままPDFに文字データとして引き継がれます。そのため、文字情報の検索やコピーなどは自由にできますし、ソフトウェアを使用すればPDFをWord形式に戻すことも可能です。(*)

一方、紙の書類をスキャニングして作成した画像データをPDFに変換した場合、そのままでは文字データが無いため、PDFにしても文字情報の検索やコピーはできません。文字データがありませんので、Word形式などに出力することももちろんできません。

icon-troublePDFは内容を検索したりコピーしたり自由にできるイメージがあるけど、紙をスキャニングしてPDFに変換しただけじゃだめなんだね。

 (*)コピーやWordファイルへの変換の可否はPDF作成時のセキュリティ設定に拠ります。

まとめ

デジタル形式の文書には、初めからデジタルデータで作られた電子文書(コード情報)と、紙などのアナログ文書をスキャニングして作った電子化文書(イメージ情報)がある。文書内の文字情報の検索やコピーなどができるかどうかは、その文書がコード情報(文字データ)を持っているかどうかによる。

digital-document-hikaku1

電子化した紙文書の検索や再利用をするためには?

さて、ここまで、紙の書類や資料をただ単にスキャニングしただけでは、内容の検索や再利用はできないとお話ししてきました。

とはいえ、書類や資料を電子化する目的の多くは、「検索して必要な内容をすぐ閲覧したい!」「以前作成した資料の文章を再利用したい!」という要望かと思います。

画像データとして電子化した紙の書類や資料の内容を、自由に検索したり再利用したりするためには、別途工夫が必要です。

次回の電子化ラボでは、その方法についてご紹介したいと思います。

by choji