不可逆圧縮の基礎から実務まで:原理・主要フォーマット・品質評価指標を徹底解説
不可逆圧縮とは
不可逆圧縮(ふかぎゃくあっしゅく、英: lossy compression)とは、元のデータを完全に復元できないことを前提に、データサイズを小さくする圧縮法を指します。画像・音声・動画などのマルチメディア分野で広く使われ、ヒトの視覚・聴覚の特性(知覚できない情報を捨てる)を利用して効率的に情報を削減するのが特徴です。不可逆圧縮を適用すると、圧縮前後で情報の差(誤差)が生じますが、視聴者が気にならない範囲に抑えることが目的となります。
なぜ不可逆圧縮を使うのか(利点とトレードオフ)
帯域幅・ストレージ節約:ファイルサイズを大幅に小さくできるため、ネット配信・ストレージコストを削減できる。
配信速度とユーザー体験の向上:低ビットレートであってもスムーズな再生やロードを実現しやすい。
処理効率:転送やエンコードに必要なリソースを抑えられる場合が多い。
トレードオフ:一方で情報は失われるため、再編集や高品質アーカイブには不向き。高圧縮ではアーティファクト(劣化)が目立つ。
基本原理:変換・量子化・符号化と知覚モデル
多くの不可逆圧縮は共通の処理フローを持ちます。大きく分けると「変換(Transform)→ 量子化(Quantization)→ 符号化(Entropy coding)」の順です。
変換:空間や時間領域のサンプルを周波数成分など別の表現に変換(例:DCT、MDCT、ウェーブレット)。変換により重要な成分と冗長な成分を分離しやすくします。
量子化:変換係数を離散化(丸める)して精度を落とす工程。ここで情報は不可逆に失われます。量子化強度を上げるほど圧縮率は高くなりますが、品質は下がります。
符号化:量子化された値を効率的に符号化(ハフマン符号、算術符号など)してさらに圧縮します。これは可逆処理です。
知覚モデル(Perceptual model):ヒトの視覚や聴覚の特性を数理化し、知覚上重要でない成分を優先的に削除する。画像なら輝度感度や色差の感度差(輝度優先、色差の粗サンプリング)、音声ならマスキング効果(ある音が別の音を覆い隠す)を使います。
代表的なアルゴリズム・フォーマット(用途別)
画像
- JPEG:8×8の離散コサイン変換(DCT)+量子化+ハフマン符号。ブロック単位の圧縮ゆえに高圧縮でブロッキングが出やすい。
- JPEG 2000:ウェーブレット変換を使用。可逆・不可逆両対応で、階層的な品質調整が可能。
- WebP:Googleのフォーマット。ロスレス/ロッシー両対応(ロッシーはVP8由来の方式)。
- AVIF/JPEG XL:AV1ベースのAVIF、JPEGを置き換えうるJPEG XLは近年の効率化と機能拡張を図るフォーマット。
音声
- MP3(MPEG-1/2 Audio Layer III):サブバンド+変換(フィルタバンク/MDCT相当)+精神音響モデル。長年普及。
- AAC:MP3の後継でMDCTベース、効率と低ビットレート特性が改善。
- Opus:SILK(音声)とCELT(音楽)を統合した低遅延/高品質コーデック(リアルタイム通信に強い)。
動画
- H.264/AVC:広く普及。ブロック予測+離散コサインに類する変換+モーション補償。
- HEVC/H.265:H.264より効率化、より柔軟なブロック分割と大きな変換ブロック。
- AV1:AOMediaが推進する高効率・ロイヤリティ低減を目指すコーデック(特にWeb向け)。
- VVC/H.266:さらに効率を改善した最新規格(ただし特許・ライセンス関連に留意)。
画質・音質の評価指標
PSNR(Peak Signal-to-Noise Ratio):MSE(平均二乗誤差)に基づく指標。計算は簡単だが視覚品質との相関は限定的。
SSIM / MS-SSIM:構造情報を考慮した指標で、人間の視覚評価により近いとされる。
VMAF:Netflixが提案した複合指標。機械学習を利用し主観評価との一致度が高い。
MOS(Mean Opinion Score)などの主観評価:実際のユーザ評価を使う方法。最も信頼できるがコストが高い。
代表的なアーティファクト(不可逆圧縮で生じる劣化)
ブロッキング(Blocking):JPEGの8×8ブロック境界が目立つ現象。
リングイング(Ringing):高周波成分が弱められることで輪郭に沿った「ぼやけ」や波状のノイズが出る。
バンディング(Banding):グラデーションで階段状の帯が見える現象。
色のにじみ・クロマサブサンプリングによる色劣化:輝度は残して色解像度を下げることで生じる。
オーディオのプリエコー(Pre-echo):瞬間的な過渡信号が前後に広がって聞こえる現象(一部の変換型オーディオ圧縮で顕著)。
モスキートノイズ(Mosquito noise):動画で動く輪郭周りに小さなノイズが浮く現象。
実務的な使い方と注意点(Web/WordPress向けの実践Tips)
アーカイブ目的なら不可逆ではなく可逆(無劣化)圧縮を推奨。将来の再利用や編集を考えると、マスターはロスレスで保持するのが安全です。
Web画像:モダンブラウザはWebPやAVIFをサポートしている。WordPressではこれらを利用することで帯域とロード時間を削減可能だが、古いブラウザ向けにJPEGのフォールバックを用意する。
レスポンシブ配信:複数解像度・品質のバージョンを用意し、画面サイズやネットワーク条件に応じて配信する(例:srcsetやPicture要素、CDNの自動変換)。
画像の前処理:ブラウザ表示サイズに合わせたリサイズ、不要なメタデータの除去、適切な品質設定(例:JPEG品質70〜85%は多くのケースで良いバランス)を行う。
動画配信:互換性重視ならH.264、効率重視ならHEVC/AV1。ただしデバイス・ブラウザ対応とライセンス(特にHEVC/VVCの特許)を確認する。ストリーミングはHLS/DASHで適応ビットレートを組む。
音声:配信向けはAACやOpusが一般的。通話やリアルタイムは低遅延のOpusが有利。
トランスコードの繰り返しに注意:不可逆圧縮を加算的に行うと品質が劣化する(世代劣化)。可能なら高品質ソースから必要な形式を一度だけ生成する。
評価と品質設定の実務的指針
品質の設定は単純な「ビットレート」や「品質数値」だけでなく、出力目的(ウェブ、放送、アーカイブ)、コンテンツの種類(静止画・写真・テキスト多めの画像・音楽・トーク)に応じてチューニングします。自動評価指標(VMAFやSSIM)とユーザ主観テストを組み合わせるのが実務では有効です。
今後の動向:AI(学習型)圧縮とコーデックの進化
近年はニューラルネットワークを用いた学習型圧縮が急速に研究・実用化されています。ニューラル画像圧縮やニューラルビデオコーデックは、従来アルゴリズムを上回る圧縮効率を示す研究が増えています。また、AV1やVVCなど従来のコーデックも進化を続け、Web向けではAVIFやJPEG XLが次世代フォーマットとして注目されています。ただし、実運用ではエンコード速度・デコーダの互換性・特許・ライセンスなどの現実的要因を考慮する必要があります。
まとめ
不可逆圧縮は、知覚特性を利用して「見えない/聞こえない」情報を意図的に捨て、容量や帯域を劇的に削減する技術です。適切に使えばユーザ体験を損なわずに効率化が可能ですが、用途(配信 vs アーカイブ)やフォーマット選定、品質評価を慎重に行うことが重要です。最新のコーデックやAI技術は圧縮効率をさらに高めていますが、互換性やライセンス面の検討も欠かせません。
参考文献
- 不可逆圧縮 - Wikipedia(日本語)
- JPEG - Wikipedia(日本語)
- MP3(MPEG-1 Audio Layer III) - Wikipedia(日本語)
- AOMedia(AV1の公式)
- ITU-T H.265(HEVC)勧告(ITU)
- VMAF: The Story of Video Quality (Netflix Tech Blog)
- Perceptual audio coding - Wikipedia(英語)
- JPEG(公式情報)


