不可逆圧縮の基礎から実務まで:原理・主要フォーマット・品質評価指標を徹底解説

不可逆圧縮とは

不可逆圧縮(ふかぎゃくあっしゅく、英: lossy compression)とは、元のデータを完全に復元できないことを前提に、データサイズを小さくする圧縮法を指します。画像・音声・動画などのマルチメディア分野で広く使われ、ヒトの視覚・聴覚の特性(知覚できない情報を捨てる)を利用して効率的に情報を削減するのが特徴です。不可逆圧縮を適用すると、圧縮前後で情報の差(誤差)が生じますが、視聴者が気にならない範囲に抑えることが目的となります。

なぜ不可逆圧縮を使うのか(利点とトレードオフ)

  • 帯域幅・ストレージ節約:ファイルサイズを大幅に小さくできるため、ネット配信・ストレージコストを削減できる。

  • 配信速度とユーザー体験の向上:低ビットレートであってもスムーズな再生やロードを実現しやすい。

  • 処理効率:転送やエンコードに必要なリソースを抑えられる場合が多い。

  • トレードオフ:一方で情報は失われるため、再編集や高品質アーカイブには不向き。高圧縮ではアーティファクト(劣化)が目立つ。

基本原理:変換・量子化・符号化と知覚モデル

多くの不可逆圧縮は共通の処理フローを持ちます。大きく分けると「変換(Transform)→ 量子化(Quantization)→ 符号化(Entropy coding)」の順です。

  • 変換:空間や時間領域のサンプルを周波数成分など別の表現に変換(例:DCT、MDCT、ウェーブレット)。変換により重要な成分と冗長な成分を分離しやすくします。

  • 量子化:変換係数を離散化(丸める)して精度を落とす工程。ここで情報は不可逆に失われます。量子化強度を上げるほど圧縮率は高くなりますが、品質は下がります。

  • 符号化:量子化された値を効率的に符号化(ハフマン符号、算術符号など)してさらに圧縮します。これは可逆処理です。

  • 知覚モデル(Perceptual model):ヒトの視覚や聴覚の特性を数理化し、知覚上重要でない成分を優先的に削除する。画像なら輝度感度や色差の感度差(輝度優先、色差の粗サンプリング)、音声ならマスキング効果(ある音が別の音を覆い隠す)を使います。

代表的なアルゴリズム・フォーマット(用途別)

  • 画像

    • JPEG:8×8の離散コサイン変換(DCT)+量子化+ハフマン符号。ブロック単位の圧縮ゆえに高圧縮でブロッキングが出やすい。
    • JPEG 2000:ウェーブレット変換を使用。可逆・不可逆両対応で、階層的な品質調整が可能。
    • WebP:Googleのフォーマット。ロスレス/ロッシー両対応(ロッシーはVP8由来の方式)。
    • AVIF/JPEG XL:AV1ベースのAVIF、JPEGを置き換えうるJPEG XLは近年の効率化と機能拡張を図るフォーマット。
  • 音声

    • MP3(MPEG-1/2 Audio Layer III):サブバンド+変換(フィルタバンク/MDCT相当)+精神音響モデル。長年普及。
    • AAC:MP3の後継でMDCTベース、効率と低ビットレート特性が改善。
    • Opus:SILK(音声)とCELT(音楽)を統合した低遅延/高品質コーデック(リアルタイム通信に強い)。
  • 動画

    • H.264/AVC:広く普及。ブロック予測+離散コサインに類する変換+モーション補償。
    • HEVC/H.265:H.264より効率化、より柔軟なブロック分割と大きな変換ブロック。
    • AV1:AOMediaが推進する高効率・ロイヤリティ低減を目指すコーデック(特にWeb向け)。
    • VVC/H.266:さらに効率を改善した最新規格(ただし特許・ライセンス関連に留意)。

画質・音質の評価指標

  • PSNR(Peak Signal-to-Noise Ratio):MSE(平均二乗誤差)に基づく指標。計算は簡単だが視覚品質との相関は限定的。

  • SSIM / MS-SSIM:構造情報を考慮した指標で、人間の視覚評価により近いとされる。

  • VMAF:Netflixが提案した複合指標。機械学習を利用し主観評価との一致度が高い。

  • MOS(Mean Opinion Score)などの主観評価:実際のユーザ評価を使う方法。最も信頼できるがコストが高い。

代表的なアーティファクト(不可逆圧縮で生じる劣化)

  • ブロッキング(Blocking):JPEGの8×8ブロック境界が目立つ現象。

  • リングイング(Ringing):高周波成分が弱められることで輪郭に沿った「ぼやけ」や波状のノイズが出る。

  • バンディング(Banding):グラデーションで階段状の帯が見える現象。

  • 色のにじみ・クロマサブサンプリングによる色劣化:輝度は残して色解像度を下げることで生じる。

  • オーディオのプリエコー(Pre-echo):瞬間的な過渡信号が前後に広がって聞こえる現象(一部の変換型オーディオ圧縮で顕著)。

  • モスキートノイズ(Mosquito noise):動画で動く輪郭周りに小さなノイズが浮く現象。

実務的な使い方と注意点(Web/WordPress向けの実践Tips)

  • アーカイブ目的なら不可逆ではなく可逆(無劣化)圧縮を推奨。将来の再利用や編集を考えると、マスターはロスレスで保持するのが安全です。

  • Web画像:モダンブラウザはWebPやAVIFをサポートしている。WordPressではこれらを利用することで帯域とロード時間を削減可能だが、古いブラウザ向けにJPEGのフォールバックを用意する。

  • レスポンシブ配信:複数解像度・品質のバージョンを用意し、画面サイズやネットワーク条件に応じて配信する(例:srcsetやPicture要素、CDNの自動変換)。

  • 画像の前処理:ブラウザ表示サイズに合わせたリサイズ、不要なメタデータの除去、適切な品質設定(例:JPEG品質70〜85%は多くのケースで良いバランス)を行う。

  • 動画配信:互換性重視ならH.264、効率重視ならHEVC/AV1。ただしデバイス・ブラウザ対応とライセンス(特にHEVC/VVCの特許)を確認する。ストリーミングはHLS/DASHで適応ビットレートを組む。

  • 音声:配信向けはAACやOpusが一般的。通話やリアルタイムは低遅延のOpusが有利。

  • トランスコードの繰り返しに注意:不可逆圧縮を加算的に行うと品質が劣化する(世代劣化)。可能なら高品質ソースから必要な形式を一度だけ生成する。

評価と品質設定の実務的指針

品質の設定は単純な「ビットレート」や「品質数値」だけでなく、出力目的(ウェブ、放送、アーカイブ)、コンテンツの種類(静止画・写真・テキスト多めの画像・音楽・トーク)に応じてチューニングします。自動評価指標(VMAFやSSIM)とユーザ主観テストを組み合わせるのが実務では有効です。

今後の動向:AI(学習型)圧縮とコーデックの進化

近年はニューラルネットワークを用いた学習型圧縮が急速に研究・実用化されています。ニューラル画像圧縮やニューラルビデオコーデックは、従来アルゴリズムを上回る圧縮効率を示す研究が増えています。また、AV1やVVCなど従来のコーデックも進化を続け、Web向けではAVIFやJPEG XLが次世代フォーマットとして注目されています。ただし、実運用ではエンコード速度・デコーダの互換性・特許・ライセンスなどの現実的要因を考慮する必要があります。

まとめ

不可逆圧縮は、知覚特性を利用して「見えない/聞こえない」情報を意図的に捨て、容量や帯域を劇的に削減する技術です。適切に使えばユーザ体験を損なわずに効率化が可能ですが、用途(配信 vs アーカイブ)やフォーマット選定、品質評価を慎重に行うことが重要です。最新のコーデックやAI技術は圧縮効率をさらに高めていますが、互換性やライセンス面の検討も欠かせません。

参考文献