Appleが画像圧縮AIコーデック「PICO」を発表、同じ画質でデータ量を最大3分の1に削減

Appleが機械学習を使用した画像圧縮コーデック「PICO」を発表しました。PICOはAV1、AV2、VVC、ECM、JPEG-AIと比べて、最大3分の1のデータ量で同品質の画像を実現可能です。さらに、既存の有力な学習型コーデックと比べても20%から40%のビットレート削減を実現したとされています。
What Matters in Practical Learned Image Compression
https://apple.github.io/ml-pico/
画像コーデックとは、写真やイラストなどの画像データを小さく保存したり、元の見た目に近い形へ戻したりする仕組みのこと。代表的な画像形式としてはJPEGやPNGがあり、スマートフォンではHEIC、近年ではAV1やVVCを利用した静止画圧縮、さらに学習ベースの画像符号化標準であるJPEG AIなども登場しています。
PICOは「Perceptual Image Codec」の略で、日本語にすると「知覚画像コーデック」という意味。従来の手作業で設計された変換処理だけに頼るのではなく、ニューラルネットワークに画像の圧縮と復元を学習させる方式の「学習型コーデック」となっています。Appleの研究チームはPICOについて、人間の視覚に合わせて直接最適化されており、なおかつ実用的な初の学習型コーデックだと説明しています。
以下はプロジェクトページに設置されているPICOの比較画像。PICOのピクセルあたりの平均ビット数(bpp)を0.341に固定した状態で、HiFiC、DCVC-RT、VVC、BPGなどのコーデックとスライダーで見比べられるようになっていました。

従来の画像圧縮では、元画像と復元画像の画素がどれくらい近いかを重視する指標がよく使われてきました。しかし、人間が「きれい」と感じる画像と、画素単位で元画像に近い画像が必ず一致するわけではありません。PICOではピクセルの一致度だけでなく、知覚品質を評価する損失、GANベースの損失、小さな文字やタイル境界の破綻を抑える損失を組み合わせて訓練したとのこと。
PICOの訓練で使われている「GANベースの損失」とは、復元画像を本物らしく見せる方向へ学習を進める仕組みです。圧縮画像では細部を完全に保存できないため、GANを使うと髪の毛や布地のような細かい質感が自然に見えやすくなる一方で、元画像に存在しない模様を作ってしまうリスクもあります。Appleの論文では、文字が読めなくなる問題やタイル状の色ムラを抑えるための専用対策が説明されています。
処理速度について、AppleはiPhone 17 Pro Max上で1200万画素画像を最短230ミリ秒で符号化し、150ミリ秒で復号できると報告しています。HEICのように端末で広く最適化された従来型コーデックと比べるとPICOの処理時間はまだ長い場面がありますが、PICOは多くの上位学習型コーデックがV100 GPUで動作する場合より高速だとAppleは説明しています。
以下はPICOと各コーデックの比較表の画像。PICOを基準にした知覚BDレート、1200万画素画像の符号化時間と復号時間、レート制御や端末間互換性などの実用性がまとめられています。BDレートは同じ品質を得るために必要なビットレート差を平均した指標で、画像内の「27%」や「169%」はPICOより多くのビットレートが必要だったことを示します。

実用性の項目で重要なのが、ファイルサイズや画質レベルを狙って調整できる「レート制御」と符号化した画像を別の端末や別の実装で正しく復号できる「端末間互換性」です。学習型コーデックでは浮動小数点演算の微妙な違いが復号失敗につながることがあり、PICOでは一部の処理を決定的に動くよう設計しているとのことです。
評価方法として、AppleはCLIC 2020 Test、Kodak、DIV2Kのデータセットを使い、610人の評価者から合計7万4925件のペア比較を集めたと説明しています。評価者は基準画像と2種類の復元画像を見比べ、どちらがよいかを選ぶ形式。人間の好みをベイズEloスコアへ変換し、各コーデックの知覚品質を比較したとのこと。
なおPICOは万能というわけではなく、Appleの論文では「PICOは自然画像の知覚品質向けに最適化されており、漫画のような非常に単純な合成画像では、同じ品質を得るために従来型コーデックより高いビットレートを使う場合がある」と説明されています。
AppleはPICOについて、知覚品質と端末上の処理時間を同時に最適化するため、数百万通りのモデル構成を探索したと述べています。研究チームは、PICOが従来型コーデックや既存の学習型コーデックと比べて、圧縮率、見た目の品質、実用性のバランスを大きく改善した画像コーデックだと説明しています。
・関連記事
なぜH.265(HEVC)サポートを終了するPCメーカーが登場したのか、H.265のライセンスが複雑な理由とは? - GIGAZINE
ロイヤリティフリーで圧縮効率も改善した動画圧縮コーデック「AV1」がなかなか普及しないのは一体なぜなのか? - GIGAZINE
極限まで遅延を削減することを目指したゲームストリーミング向け動画コーデック「PyroWave」 - GIGAZINE
Dolbyが動画コーデックを巡ってSnapchatを提訴、AV1の「オープンでロイヤリティフリー」が疑問視されている - GIGAZINE
次世代コーデック「AV2」の開発は順調でノートPCでのデコード実演ができる段階まできている - GIGAZINE
・関連コンテンツ
in AI, ソフトウェア, Posted by log1d_ts
You can read the machine translated English article Apple announces PICO, an AI image compre….







