革新的なソフトウェアで経営課題の解決へ―アシストマイクロ株式会社
AssistMicro

オフィシャルブログ

  • 電子化ラボ
2012-08-30

【電子化ラボ】電子化文書に使われる画像データ形式とその特徴

こんにちは、電子化ラボのコーナーです。
今回は電子化文書でよく使用される画像データ形式(画像データフォーマット、画像ファイルフォーマット)についてのお話です。

オフィスのIT環境が整うにつれ、業務で行われる取引先との書類の授受においても、電子データをメール添付やファイルサーバ経由でやりとりする方法が当たり前になりました。このようななかで、紙文書をスキャナで電子化する機会も身近なものになっています。

icon-starたとえば取引先から「御社のあの製品カタログを共有したいので電子データでください」って 依頼が来たけど、手元にカタログ現物しかなかったとき。
ひとまず、カタログをスキャニングして電子化データを渡す方法が考えられるんじゃないかな。
こういうちょっとしたスキャニングなら、オフィスの複合機とか小型スキャナでもできるしね。

しかしながら、いざスキャニングしようとすると、機器によっては作成できる画像データ形式が多数表示され、「どのデータ形式が適しているのかよくわからない…」と、とまどってしまうこともあるのではないでしょうか。

では、紙媒体をスキャニングして電子化文書を作成するとき、どのような画像データ形式がよいのでしょう。よく使用される画像データ形式とその特徴や利用シーンをご紹介します。

電子化文書でよく利用される画像データ形式

TIFF

TIFF(ティフ:Tagged Image File Format)は、さまざまなプラットフォームやソフトウェアで利用できる汎用的な画像データ形式です。画像データの情報を「タグ」という形式で内部に保有することで、1つのファイルに複数の画像データを持つことができます。そのため、複数ページの資料を電子化するときにはまずTIFFが使用されます。

また、白黒2値・グレースケール・カラーといった各カラーモードに対応し、それぞれ画質を劣化させずにデータ容量を軽くすることができます。特に白黒2値の圧縮は効果的で、図面のような大型資料でもかなりの軽減が可能です。

TIFFの特徴

  • 1ファイルに複数の画像データを持つことができる、マルチページに対応
  • 白黒2値やカラーそれぞれに適した圧縮方式で画質を劣化させずに容量を軽くでき、圧縮前の状態に復元もできる(ZIP、LZW、G4圧縮などの可逆圧縮時)
  • 画像データへの編集や保存を繰り返しても画質が落ちない(非圧縮時または可逆圧縮時)
  • 閲覧性はユーザの使用するビューアソフトによって左右されることがあるので留意

業務用のスキャナ機器や画像編集用ソフトは基本的にはTIFFに対応しています。そのため、まずTIFFデータを作成して、必要に応じて他の画像データ形式として書き出して使う、といった中間データとしての使用も一般的です。

JPEG

JPEG(ジェーペグ:Joint Photographic Experts Group)は、画像データの圧縮規格の一種で、この圧縮方式が使用されている画像データをJPEGと呼びます。容量が重くなりがちなフルカラーの画像データを大幅に圧縮でき、特に写真や絵画のような豊富な階調をなめらかに再現できることが特長です。

JPEGでは、人間の目では認識しにくい情報を欠損・改変させていくことで、見た目の劣化を抑えながらデータ容量を大幅に削減します。JPEG圧縮した画像データ分はもとの状態に戻すことはできませんが、画質を見ながら圧縮率を調整することが可能なため、用途や環境に応じて柔軟に作成されています。

JPEGの特徴

  • 1ファイルに1画像のみ、マルチページは非対応
  • データ容量を抑えながらも豊富な階調をなめらかに再現でき、写真や絵画に適する
  • 画像データの欠損・改変でデータ容量を減らす非可逆圧縮なので、圧縮前と同じ画質には戻せない
  • 圧縮率によっては、画像データにブロックノイズやモスキートノイズが生じることもある

JPEGはフルカラーの画像データを軽い容量で扱えるため、印刷用の素材やWeb用の素材としてもよく使用されています。スキャニングで画像データを作成する場合は、高めの解像度で読み取っておき、画像編集用ソフトでそのデータから用途に応じたJPEG画像を書き出す方法が使いやすいでしょう。

PDF

PDF(ピーディーエフ:Portable Document Format)は、厳密にいうと画像データではなく電子文書のファイルフォーマットです。WordやExcel、PagesやKeynote、illustrator…など、さまざまなアプリケーションのデータから作成できることはご存じのとおりです。また、このような電子文書(ボーンデジタル)から変換することはもちろん、画像、音声、動画など、多様なデータをファイル内に入れることができる“コンテナ”のような機能が特徴です。

そんなPDFは、スキャニングで作成される電子化文書(画像データ)の最終フォーマットとしてももっともよく採用されています。ここでは“画像データから作成するPDF”という視点でご紹介します。
(*電子文書と電子化文書の違いはこちらをご参照ください

電子化文書をPDFにする場合は、一度TIFFやJPEGなどを作成してからソフトウェアで変換する方法や、PDF変換ソフトウェアが入っているスキャナ機器で直接PDFを作成する方法があります。

PDFは、無償のリーダーが広く普及していて閲覧環境が整っているため、配布やWebでの公開がしやすく、必要に応じてセキュリティの設定も行えます。また、画像データの文章に対して目に見えない透明なテキストデータを付与することで内容検索が可能になる、といった利便性の高い使用法が選べます。

PDFの特徴

  • 1ファイルに複数の画像データ等を持つことができる、マルチページに対応。
  • 透明テキストという文字情報を付与することで、もとが画像データであっても内容検索可能なPDFにできる
  • 無償の閲覧用ソフトウェア(Adobe Reader)が普及し、環境による制限を受けずに閲覧できる
  • 編集や加工の自由度は低い(画像データに手を入れる場合はPDF変換前がよい)

icon-smileぼくたちの電子化サービスでも、スキャニングした資料をPDFにしてお渡しすることが一番多いよ。たとえば 業務用スキャナを使ってTIFF形式で読み取りしてから、ゴミ取りとか傾き補正、枠消し、リサイズ…などなどの加工や編集をして、全部済んだら専用ツールで一気にPDFへ変換!とかね。いろいろ工夫してるんだ~♪

なお、PDFは、2008年7月 バージョン1.7がISO32000-1として規格化され、開発元のAdobe Systems社から国際標準化機構へとその管理権が移行されました。ISOに認定されたことで、今後も標準的な電子文書フォーマットとして長く採用されていくと考えられています。

まとめ

電子化文書に使用される主な画像データ形式の比較

フォーマット TIFF JPEG PDF(電子化文書)
主な拡張子 .tif .tiff .jpg .pdf
圧縮 可逆圧縮 非可逆圧縮
ページ シングル/マルチ対応 シングルのみ シングル/マルチ対応
使用シーン例
  • 中間データとしての編集用に
  • ページものに
  • 文字が中心の書類などに
  • 図面など大きなサイズの資料のデータ容量軽減に
  • 写真や絵画など階調豊富な資料に
  • カラーやグレースケールのデータ容量軽減に
  • 印刷用素材やWeb素材の元データに
  • 配布やWeb公開に
  • セキュリティ設定付加でより安全に
  • しおりの設定や透明テキストの付与でより便利に

icon-smile2ということで、最初にあげた例をもう一度みてみよう。
「御社のあの製品カタログを共有したいので電子データでください」
カタログだからフルカラーで複数ページとすると、次のようなスキャニングの方法が考えられるよ。

  • 直接PDFとして読み取れるスキャナなら:
    カラーのPDF形式を指定、一度に読み取ってマルチページにする。
  • 直接PDFとして読み取れないスキャナなら:
    カラーのTIFF形式を指定し、一度に読み取ってマルチページにする。
    そのあと、PDF変換ソフトでPDFにする。データ容量が重い場合はPDF変換時に調整。
  • 直接PDFとして読み取れないスキャナで、さらにTIFFが選べなかったら:
    カラーのJPEG形式を指定し、1ぺーじずつ読み取る。
    そのあと、PDF変換ソフトで複数のJPEGデータを1ファイルにまとめてマルチページにする。

…こんなかんじかな。
相手の環境がどんなものかはわからないから、最後は一番閲覧しやすいPDFに変換して送ってあげると親切だよ。あと、PDFやTIFFのマルチページは、まとめて読み取る単位=1ファイルになることが多いから、複合機やスキャナ機器のマニュアルも確認してみてね。

オフィスに複合機や小型のスキャナがなくても、最近ではコンビニエンスストアの複合機などでスキャナ機能が使えるものもありますね。ご自身でちょっとしたスキャニングをされる機会があったときの参考としていただければ幸いです。
(もちろん、大量の書類や資料を電子化されたい場合はお気軽にご相談くださいね✿)

by choji