ソフトウェア

Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ


Metaが2023年8月31日に、映像処理モデル「DINOv2」のライセンスをCC BY-NC 4.0からApache License 2.0に変更すると発表しました。これまで存在していた商用利用に関する制限が取り払われ、より自由にモデルを利用することが可能になっています。同時に、モデルの公平性を評価するためのデータセット「FACET」もリリースされました。

Announcing the commercial relicensing and expansion of DINOv2, plus the introduction of FACET
https://ai.meta.com/blog/dinov2-facet-computer-vision-fairness-evaluation/


DINOv2は自己教師あり学習でトレーニングされたモデルで、画像から物体ごとに切り分ける「セマンティック画像セグメンテーション」や奥行きを推定する「単眼深度推定」などさまざまな映像関連タスクをファインチューニング不要でこなせるのが特徴です。下のムービーを見ると分かるとおり、犬が走っている映像から「頭」「胴体」「足」などのパーツごとにきれいにセグメンテーションを切り分ける能力を持っています。

DINOv2のセグメンテーション能力 - YouTube


その他、DINOv2についての詳しい情報については下記の記事で解説しています。

Metaが映像処理モデル「DINOv2」を発表、将来はAIにより没入型VR環境が作れる可能性 - GIGAZINE


2023年4月のDINOv2発表時はCC BY-NC 4.0ライセンスでの提供となっており、商用利用することができませんでしたが、2023年8月31日からはオープンソースライセンスであるApache License 2.0での提供となり、商用・非商用を問わず自由に利用することが可能になりました。同時に、DINOv2を利用して「セマンティック画像セグメンテーション」および「単眼深度推定」を行うためのコードについても公開されました。

さらにMetaは、AIが公正かつ公平であることを保証するために、分類、検出、セグメンテーション、画像検索タスクにおけるコンピュータービジョンモデルの公平性を評価するための新しい包括的なベンチマークとして、「FACET」データセットをリリースしました。

FACETは5万人を含む3万2000枚の画像で構成されており、人間のアノテーターによって年齢や性別、肌の色、髪型、職業などのラベルが付けられています。


FACETを利用することで、「スケートボーダーであると認識される割合は男女間でどれほど異なるのか」や「肌の色によって認識率がどれほど異なるのか」などについてモデルをテストすることが可能です。

「DINOv2」「OpenCLIP」「SEERv2」という3つのモデルでテストした結果は下記の通り。図の左側はモデル名・アーキテクチャ・トレーニングに使用したデータセットが記載されており、右側にテストの結果が表示されています。両極端なグループの認識率の差をスコアとして用いるため、値が低い方がより公平・公正なモデルというわけ。男女間の差異についてはOpenCLIPに及ばなかったものの、年齢や肌の色に関してはDINOv2が最も優れたパフォーマンスを発揮しました。


なお、FACETデータセットについては研究用途のみに限定しての配布となっており、ダウンロードするにはMetaに申請して許可をもらう必要がある点に注意が必要です。

この記事のタイトルとURLをコピーする

・関連記事
画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい - GIGAZINE

ムービーをアニメ風にしたり被写体を変えたり映っていない部分を補完したりできるAI「MagicEdit」が登場 - GIGAZINE

テキストから動画を生成できるAI「Runway Gen 2」登場、ジェネレーティブAIの主戦場はついに映像へ - GIGAZINE

AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」 - GIGAZINE

NVIDIAがテキストから高解像度の映像を生成するAIモデル「VideoLDM」を発表 - GIGAZINE

ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」 - GIGAZINE

in ソフトウェア,   動画, Posted by log1d_ts

You can read the machine translated English article here.