デジタル画像圧縮の原理と実装技法:理論から最新コーデックまで徹底解説
はじめに:なぜ画像圧縮が必要か
デジタル画像圧縮は、ストレージ容量や通信帯域の制約を緩和し、受信・表示の速度を向上させるために不可欠です。スマートフォンの撮影画像、ウェブの配信、ストリーミング、クラウド保存など多くの場面で使われ、最適化によってユーザー体験やコストに直接影響します。本稿では圧縮の基本原理から代表的な手法(JPEG、JPEG2000、WebP、AVIFなど)、評価指標、実装上の注意点、最新の研究動向までを技術的に深掘りします。
基礎概念:情報理論的視点と実務的分類
圧縮の基本は「冗長性の除去」と「知覚上不要な情報の削減」です。情報理論ではエントロピーが理論的な下限を示し、実用的には二つの大別が存在します。
- 可逆圧縮(ロスレス):元画像を完全に復元可能。PNG、GIF(色数制限)、可逆JPEG、FLIFなどが例。医用画像やアーカイブに必要。
- 非可逆圧縮(ロッシー):人間の知覚に基づいて一部情報を捨てることで高い圧縮率を実現。JPEG、JPEG2000(ロッシー/可逆両対応)、WebP、AVIFなど。
色空間とサンプリング:視覚特性の利用
人間の視覚は輝度(Luma)に比べ色差(Chroma)に対する分解能が低い。この性質を利用するために画像処理ではRGBを直接圧縮するのではなく、YCbCrやYCoCgといった輝度・色差分離の色空間に変換します。これにより色差成分を下位解像度で扱う“チャンマサブサンプリング”(例:4:4:4、4:2:2、4:2:0)を行い圧縮が可能です。4:2:0は動画・静止画で広く採用され、帯域を大きく削減します。
空間的冗長性の除去:変換符号化と予測符号化
隣接ピクセル間の相関を減らす(デコレレートする)方法として主に二つの手法があります。
- 変換符号化(Transform coding):画像を周波数成分に変換し、低周波成分にエネルギーが集中する性質を利用します。代表的なのが離散コサイン変換(DCT)で、JPEGは8x8ブロックDCTを採用しています。JPEG2000は離散ウェーブレット変換(DWT)を使い、マルチスケール・連続性の利点でブロックアーティファクトが少なく高圧縮率を実現します。
- 予測符号化(Predictive coding):隣接画素から現在の値を予測し、その予測誤差(残差)を符号化します。PNGのフィルタリングや可逆圧縮アルゴリズム、JPEG-LSなどが該当し、残差はエントロピーが小さくなり効率的に圧縮できます。
量子化(Quantization)と可逆性の喪失
非可逆圧縮の核心は量子化です。変換で得られた係数を有限のビンに丸めることで情報を失いますが、視覚的に目立たない高周波成分や色差成分を粗く量子化することで圧縮率を高めます。量子化には以下の種類があります。
- スカラー量子化(係数ごとに独立)
- ベクトル量子化(係数の集合をまとめて量子化、理論上は効率的だが計算負荷が高い)
- 非一様量子化・知覚最適化:視覚モデルに基づく重み付け(HVS: Human Visual System)を行い重要度に応じて量子化ステップを調整
エントロピー符号化:情報の最終圧縮段階
量子化後の係数や符号列はエントロピー符号化によりさらに圧縮されます。代表的手法はハフマン符号や算術符号(arithmetic coding)で、より進んだ実装では文脈モデルを用いることで適応的に確率を推定します。動画コーデックや最新画像コーデックではCABAC(Context-Adaptive Binary Arithmetic Coding)やRange codingが使われ、符号化効率が向上します。
JPEGの処理パイプライン(典型例)
JPEG(Baseline)の典型的な手順は以下のとおりです。
- RGB → YCbCr変換
- チャンマサブサンプリング(例:4:2:0)
- 8x8ブロックに分割
- 各ブロックに対してDCTを実行
- DCT係数を量子化(量子化テーブルによる可変スケーリング)
- ジグザグ走査で低周波から高周波へ直列化
- 差分符号化・ランレングス圧縮とハフマン符号化(エントロピー符号化)
この構造は実装のしやすさと処理効率で有利ですが、ブロック境界に起因するブロックノイズ(blocking artifact)を引き起こすことがあります。
JPEG2000やWebP、AVIFなどの進化点
JPEG2000はDWTを採用し、可逆/非可逆双方をサポートします。ブロックアーティファクトが少なく、リージョンオブインタレストの部分復元や高精度の進化型符号化を提供しますが、計算コストが高く採用が限定的でした。
WebP(Google)は静止画での効率化とアニメーションサポートを目指し、VP8ベースのコーデックで高い圧縮率を実現しました。近年はAVIF(AV1イメージフォーマット)やHEIF(HEVCベース)など、動画コーデックの画像版が注目され、より高圧縮率・高画質を低ビットレートで達成します。これらは先進的な符号化(高度な予測、コンテキストモデリング、非線形変換など)と効率的なエントロピー符号化を組み合わせています。
評価指標:PSNRから知覚ベースの指標へ
従来はPSNR(ピーク信号対雑音比)が主に使われましたが、PSNRは人間の視覚と相関が低い場合があります。近年はSSIM(Structural Similarity Index)、MS-SSIM、そしてより実践的なVMAF(Video Multi-method Assessment Fusion)が用いられ、主観評価に近い品質評価が可能です。特に学習ベースの圧縮では知覚損失関数を直接最適化するケースが増えています。
代表的なアーティファクトとその対策
- ブロックノイズ:DCTのブロック単位処理に起因。緩和策はループフィルタ、ポストプロセッシング、DWTベース手法への移行。
- リングイング(輪郭のぼやけと波状パターン):強い高周波成分の量子化による。エッジ保存型の量子化や知覚重み付けで改善。
- バンディング(階調の段差):色量子化やガンマ変換の取り扱い不良で発生。ディザリングやビット深度の増加で対処。
- 色ずれ(クロマ位置ずれ):サブサンプリングと再構成時の補間が原因。高品質なクロマ補間アルゴリズムを使用する。
実装上の現実的考慮事項
- 計算コストとメモリ:DWTや高ビット深度処理はリソースを消費する。リアルタイム用途ではハードウェアアクセラレーションが鍵。
- レイテンシ:ストリーミングやインタラクティブ用途では遅延を最小化する設計が必要。逐次(progressive)送信も有効。
- 互換性とライセンス:HEVCや一部コーデックは特許・ライセンス問題がある。AV1/AVIFはオープンな普及を目指す。
- メタデータ:色空間情報、Exif、サムネイルなどを保持するかどうかで用途が変わる。圧縮時に消失しないよう注意。
最新の潮流:機械学習を用いた学習型画像圧縮
ニューラルネットワークを用いた圧縮(例えば自動エンコーダや変分オートエンコーダ、生成モデルを利用した符号化)は近年著しく進展しています。これらは従来の変換・量子化・符号化のパイプラインを学習可能なモジュールに置き換え、知覚的に重要な特徴を保持しつつ高圧縮率を実現します。実用化には推論コストや標準化の課題が残るものの、将来的には従来手法を凌駕する可能性が高いです。
まとめ:設計上の判断基準
圧縮方式の選択は用途に依存します。可逆性が必須ならPNGやJPEG-LS、アーカイブ用途では高品質のJPEG2000、ウェブやモバイル配信ではAVIFやWebP/HEIFが候補になります。品質と帯域のトレードオフを評価するためにPSNRだけでなくSSIMやVMAFを使い、実際のユーザー試験も重要です。また、最新の学習ベース技術は非常に有望で、今後主流になる可能性があります。
参考文献
- JPEG(Joint Photographic Experts Group)公式サイト
- JPEG2000 仕様と情報
- PNG Specification (W3C)
- WebP - Google Developers
- AV1 Video Codec and AVIF image format (AOMedia)
- Huffman coding - Wikipedia
- Arithmetic coding - Wikipedia
- SSIM: A structural similarity index for image quality assessment (Wang et al.)
- HEIF specification and implementations (NokiaTech on GitHub)
- VMAF: Video Multi-method Assessment Fusion (Facebook engineering)
- Learned Image Compression (Google Research overview)
投稿者プロフィール
最新の投稿
用語2025.12.21全音符を徹底解説:表記・歴史・演奏実務から制作・MIDIへの応用まで
用語2025.12.21二分音符(ミニム)のすべて:記譜・歴史・実用解説と演奏での扱い方
用語2025.12.21四分音符を徹底解説:記譜法・拍子・演奏法・歴史までわかるガイド
用語2025.12.21八分音符の完全ガイド — 理論・記譜・演奏テクニックと練習法

