メモ

AIなどのニューラルネットワークによる画像圧縮はどれぐらいまで実現しつつあるのか?


画像や動画のファイルサイズを圧縮することはインターネットトラフィックを削減することにつながるため、多数の技術者によって圧縮技術の見直しが図られてきています。いくつかの技術開発を経て誕生した「ニューラルネットワーク」を使用する圧縮方法は2024年時点でどこまで進化しているのかについて、Microsoftでリアルタイム動画圧縮技術の開発に取り組むマルティン・ルミステ氏が解説しました。

Compressing images with neural networks | Martin Lumiste
https://mlumiste.com/technical/compression-deep-learning/


ニューラルネットワークを利用した圧縮「ニューラル圧縮」を理解するためには、まず1992年から存在する圧縮形式「JPEG」を理解する必要があります。

JPEGの圧縮方法は「細部を削る」ことで画像の一部分の品質を落としてファイルサイズを小さくするものです。具体的には画像を8ピクセル×8ピクセルから成るブロックに分け、テクスチャの細かさを周波数に変換します。変換後、よりテクスチャが精巧な高周波数帯を削り、低周波数帯だけを残すことで、サイズを圧縮します。


ルミステ氏いわく「人間の目は精巧なテクスチャの変化よりも粗い箇所の変化の方がはるかに受け入れやすい」とのことで、JPEGの方法でも違和感を小さくしたまま圧縮することが可能になっているそうです。

後に登場した技術が、この「画像データを周波数に変換する方法(離散コサイン変換)」をパラメータ化して、ニューラルネットワークに計算を任せようというニューラル圧縮です。同様の機能を持つモデルを2018年に初めて公開したヨハネス・バレ氏らは、同方式がJPEGよりも優れた圧縮率を達成することを示し、圧縮方法の研究に希望をもたらしました。


ニューラル圧縮では、重要なデータを選別する「重み付け」を行う機械学習モデルを用いた方法が開発されており、学習済みのモデルによる圧縮では、いくつかのコーデックにおいて従来より優れたベンチマークを示しているとのこと。ただしネックになるのは機械学習の計算コストであり、コストを鑑みるとまだまだ従来のコーデックに勝るとは言えないようです。

また、動画圧縮では従来のコーデックとニューラルネットワークを組み合わせたハイブリッドアプローチが登場していますが、機械学習を用いない最先端のコーデックの方が強力であるとのこと。

ルミステ氏は「このようなことから、少なくとも当面は、より軽量なハイブリッドニューラルアプローチが画像や動画の圧縮を強化する最善の方法ということになるかもしれません。しかし、長い目で見れば、シンプルで汎用(はんよう)性の高いニューラル・ハードウェアで動作するニューラル・コーデックが優勢になる可能性も高いです」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか? - GIGAZINE

4K時代の動画コーデック「HEVC」「AV1」「VVC」を比較して評価するとこうなる、最も将来に期待できるコーデックはどれか? - GIGAZINE

Microsoftが機械学習でEdge上の低品質ムービーの解像度を上げる「Video Super Resolution」を発表 - GIGAZINE

Googleが3kbpsの超低ビットレートでも高音質を実現するコーデック「Lyra」をオープンソース化 - GIGAZINE

in Posted by log1p_kr

You can read the machine translated English article here.