革新的なソフトウェアで経営課題の解決へ―アシストマイクロ株式会社
AssistMicro

電子化データ参考資料

電子化データ参考資料

「資料の電子化を考えているけど、データの形式などの違いがよくわからない」
「グレースケールって何?解像度ってどういうもの?」
「全文検索できるPDFって?どうしたら使いやすいデータになるの?」

電子化を検討しているけれど、関連用語についてはよくわからない… そんなお客様のために、データ形式やカラーモードなど電子化データ(画像データ)に関する基本的な情報についてご紹介いたします。電子化をご検討される際の参考資料としてご覧ください。

なお、アシストマイクロの電子化サービス(法人・組織向け)では、お客様が電子化を検討されている資料や目的にそって、適した電子化データのご提案をしておりますので、お気軽にご相談ください。

電子化データの形式

ここでは、電子化データ(紙媒体などのアナログ資料をスキャニングして作成する画像データ)として使用されるデータ形式(データフォーマット)についてご説明します。

TIFF(ティフ) [画像データ]
TIFF(Tagged Image File Format)は、さまざまなプラットフォームやソフトウェアで利用できる汎用的な画像データ形式です。基本的に画像データの画質を劣化させずに取り扱うことができ、圧縮も画質を行うことなく行えます。特に白黒のデータは大幅に容量を軽くできるため、図面などの大型資料の電子化にも使われます。また、1ファイルに複数の画像データを保有できるため、ページ物の書類などもまずTIFFに電子化されます。ただ、TIFFデータの閲覧は使う人のソフトウェア等の環境によって左右されることがあるので、目的にあわせてPDFなどのデータ形式に変換して使用されることも多いです。
JPEG(ジェーペグ) [画像データ]
JPEG(Joint Photographic Experts Group)は画像の圧縮規格の一種で、この圧縮方式が使われている画像データを一般的にJPEGと呼びます。カラーに特化した形式なので、写真や絵画などのように階調が豊かな資料によく使用されています。増大しがちなカラー画像の容量を、画質を見ながら軽減していくことができますが、圧縮して軽くしたデータの画質は元の状態には戻せないため注意が必要です。
PDF(ピーディーエフ) [電子文書フォーマット]
PDF(Portable Document Format)は、画像データの形式ではなく、画像データに限らずさまざまなデータをまとめて保有できる“電子文書フォーマット”です。無償のビューアソフトが十分に普及し、文書の外観を損なわずに多様な環境で利用できることや、検索情報の付与・セキュリティ設定なども可能なことから、電子化データの最終データ形式としても標準的に使用されています。ただ、再編集や加工については自由度が低いため、もし電子化データを加工する予定があるのでしたら、PDFだけでなく元のTIFF画像などもある方がよいでしょう。

なお、スキャニングによる電子化データは画像データですので、そのままではそこに記載されている文章や図表などは編集ができません。文章や図表などの内容自体を編集可能なデジタルデータとして使いたい場合は、改めて作成する必要があります。方法としては、OCR(光学式文字認識)による自動変換、人手による入力で必要なデジタルデータを作成する、というものがあります。詳しくは「データ入力・データ作成サービス」をご覧ください。

電子データのシングルファイル形式とマルチファイル形式

1ファイルの持つページ数が、単数であるか複数であるかを表す用語です。電子化する資料を1ページで1ファイルにするのか、複数ページを1ファイルにまとめるのか、といった指定をするときなどに使われます。複数画像を1ファイルに保有できるPDFとTIFFでよく使用される表現です。

シングルファイル形式
1ファイルに1ページしか持っていないデータです。シングルPDF、シングルTIFFなどと使います。たとえば、1ページで内容が完結している資料や図面などは、シングルでファイルを作成することがあります。
マルチファイル形式
1ファイルに複数ページを持っているデータです。マルチPDF、マルチTIFFなどと呼びます。たとえば、報告書や製品マニュアルなど複数ページで1件となる資料はマルチファイルとして電子化する方が使用しやすいといえます。学術論文集などは論文単位に切り分けてマルチファイルにすることも多いです。

電子データのカラーモード

白黒(モノクロ)2値 color-sanple-mono
画像データを白と黒の2色で再現するカラータイプです。スキャニングする資料の色を、ある濃度を基準(閾値)として白と黒のどちらかに分けて画像データを作成します。契約書や論文などの文章が中心となる資料や、単色の線画が中心の図面などに適しています。
グレースケール color-sanple-gs
白と黒の2色だけでなく、その中間にあるグレーの階調も再現するカラータイプです。スキャニングする資料の色の濃淡を無彩色で表します。新聞などのようにモノクロ写真がある場合などは、グレースケールを使用する方が元の資料を再現しやすいです。グレーを再現する分、色情報が多くなるため、白黒2値よりデータの容量が大きくなります。
フルカラー color-sanple-full
いわゆるフルカラー画像で、資料の色情報をRGB(赤・緑・青)24bitで読み取って再現するカラータイプです。写真や絵画、カタログなどのカラー資料に適しています。フルカラーを再現する分、色情報が増えるため、モノクロ2値やグレースケールよりもデータの容量は重くなります。

各カラーモードの比較

同一のカラー資料を、白黒2値・グレースケール・フルカラーで電子化した画像データの比較(サンプル)です。


左から、白黒2値は写真や淡色の再現が不十分ですが、文字は鮮明で読みやすくなっています。グレースケールは色味を除けば写真を含めた資料の外観をほとんど再現しています。フルカラーは元となる資料の見た目の再現性がもっとも高いですがデータ容量はもっとも重くなります。

カラーモードの検討は、電子化データにしたときに“資料のどの情報が必要なのか”(見た目の再現を重視、文字の判読ができればよい等)に基づき、容量とのバランスも考慮して行います。

*サンプルの資料は弊社のカタログです。
*実際の作業では、必要な内容が再現されるようにスキャナの設定を調整して電子化データを作成します。

電子化データの解像度(dpi)

解像度(dpi:ディーピーアイ、Dots per inch)
1インチ(25.4mm)に含まれるドット(コンピュータグラフィックスで描画表現を行う最小の単位)の数を表す密度の単位の一種です。電子化データにおけるdpiは、“スキャニングするときに、元の資料を1インチあたり何個のドットで読み取ったデータか”ということを意味しています。
ただ、わかりづらいので、「画像データの精細さ」を表す指標と捉えていただければよいと思います。
解像度の値が高くなるほど、画像データは高精細になり、たとえば100dpiよりも300dpiの方がきめ細やかで画質がよい、となります。一方、値の高さに比例してデータ容量も大きくなりますので、用途に応じてちょうどよいバランスになる値を選ぶことが大切です。

検索可能な電子化データ

資料をスキャニングして作成する電子化データは、そのままでは単なる画像データですので、記載されている文字の情報などは検索することができません。アシストマイクロの電子化サービス(法人・組織向け)において、お客様が電子化データを効率的に使用するためによく採用されている方法には、次のものがあります。

ファイル名編集 / フォルダ分類
スキャニングした電子化データは、基本的に自動で振られる連番がファイル名となります。そこで、端的に内容がわかる情報(たとえば、人事資料なら「社員番号+書類名」、製品資料なら「製品番号+製品図面名」など)にファイル名を変更することで、一目でどのファイルがどの電子化データか理解できるようにします。
ファイル名にキーとなる情報があれば、特別なシステムを使用しなくてもOSの検索機能ですぐに必要なファイルを見つけられます。また、資料の数量が多い場合はフォルダでの分類も有効です。ファイルやフォルダの名称はお客様からご指定いただくほか、弊社からご提案することも可能です。
透明テキスト付PDF(全文検索対応)
スキャニングした電子化データ(画像データ)の内容を検索したい場合は、透明なテキストデータを付ける必要があります。画像データに対して、目には見えないテキストデータを重ねて設定することで、まるで画像データの全文を検索しているように内容を検索することが可能になります。 このためには「OCR」という技術で、画像データに含まれている文字画像を認識・該当するテキストデータに変換し、付与することが一般的です。
ただし、OCRの変換精度には限界があるため、はじめからデジタルデータで作成されたものと同様に、まったく間違いなく内容検索を行えるとは限りません。対象の資料はどれだけOCRで変換ができるのか、サンプルデータを作成して確かめてみる方がよいといえます。
検索用インデックスファイル(簡易検索ツール)
「大掛かりなシステムは導入できないけど、検索システムみたいに必要ないくつかの項目で検索したい」― そんなお客様によくご利用いただいているのが、この検索用インデックスファイルです。インデックスファイルとは、文書のメタデータ(属性情報:たとえば「資料名」や「作成年月日」など、文書の内容ではなく“文書自体”の情報)を記載したファイルで、弊社ではExcel形式などで作成します。
各文書のメタデータをExcelの1レコード(1行)に入力し、該当する電子化データ(画像データ)へのハイパーリンクをあわせて設定することで、Excelのキーワード検索やオートフィルターによるソート、絞り込み機能を使用して必要な文書情報をすぐに抽出できるだけでなく、電子化文書のすみやかな閲覧も可能になります。メタデータのほか、目次部分をテキストデータとしてインデックスファイルに入力しておくこともできます。
インデックスファイルと紐づいた画像データを作成しておくことで、将来的に文書管理システムなどを導入することになった場合も、一括登録処理などに展開できる可能性も高くなります。

電子化サービスに関するお問い合わせ

アシストマイクロでは、法人や組織のお客様に電子化サービス(スキャニング、データ入力等)をご提供しています。電子化サービスに関するご照会は、以下のお問い合わせ先までお気軽にお寄せください。

ご不明点がありましたらお気軽にお問い合わせください。

メールでのお問い合わせはこちらからどうぞ

お問い合わせフォーム

お電話でのお問い合わせ

営業日

月曜日〜金曜日(祝日は除く)

電話受付時間

9:00〜18:00
アシストマイクロ株式会社

〒164-0012 東京都中野区本町3-31-11 YUWAビル7F