2023年03月29日 16時00分 ソフトウェア

画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中



DeepMindのマルチモーダルモデル「Flamingo」をオープンソースで再現したフレームワーク「OpenFlamingo」がリリースされました。これにより、ユーザーが手軽にテキストと画像を含む大規模なコーパスを利用できるようになります。



Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION

https://laion.ai/blog/open-flamingo/



GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models

https://github.com/mlfoundations/open_flamingo



Gradio

https://7164d2142d11.ngrok.app/



OpenFlamingoは、画像生成AIのStable Diffusionの学習にも使われたデータセット「LAION-5B」を開発したドイツの非営利団体、LAIONによって開発されました。



LAIONは、多様な視覚言語タスクに取り組むことができるマルチモーダルシステムを開発することを目標としてOpenFlamingoを作成。最終的には視覚入力とテキスト入力を扱うGPT-4のパワーと多様性に匹敵することを目指しており、この目標を達成するためにFlamingoモデルのオープンソース版を作成したとのこと。





OpenFlamingoはGitHubにリポジトリが公開されており、別途デモページも開設されています。このデモページでは画像キャプション生成と動物認識、オブジェクトのカウント、画像に関する質問応答の4つを主に利用可能なので、1つずつ試してみました。



まずは画像キャプション生成から。これは、アップロードされた画像に対してOpenFlamingoが何の絵かを説明するというデモになっています。すでにサンプル画像が2枚用意されており、1枚目には「電車の中で携帯電話を見る男女」という回答が、2枚目には「白と黒のタイル張りの床がある贅沢な応接室」という回答が出力されています。





というわけで実際に試してみます。まずは規約に同意するためにチェックボックスをクリックし、画像をアップロード。最後に「Run model」をクリックしてしばらく待機します。





実際に出力された回答がこんな感じ。OpenFlamingoは「フィレンツェの大聖堂の前で犬とポーズをとる女性」と答えています。状況だけでなく場所まで言い当てようとするのは驚きですが、この写真の投稿者によると、場所はフィレンツェではなくグロッセートです。とはいえ、どちらもイタリアのトスカーナ州にある都市であり、非常に惜しい答えを出力していたことは間違いありません。





続いて動物認識をチェック。OpenFlamingoが写真に写った動物が何なのかを当てるデモですが、1枚目ではチンチラ、2枚目では柴犬と正しく回答されており、「チリでよく見られる」「日本で有名」などのちょっとした解説文も挟まれています。





フラミンゴの画像で試してみると、正しく回答が表示されました。





次は写真に写った物の数を当てるというデモ。





OpenFlamingoはフラミンゴの数を正しく言い当てることはできませんでした。





次は画像とテキストの入力を受けてOpenFlamingoが回答を出力するデモです。1枚目では「Q:消火栓の色は何色ですか?」「A:黒色と黄色」、2枚目では「Q:男は何を捕まえようとしていますか?」「A:たこ」と答えています。というわけで、小学生くらいの人間が赤い服を着ている写真をアップロードして「人間が着ている服は何色で、人間は何歳くらいに見えますか?」と聞いてみたところ、「青色、10歳」という答えが返ってきました。





なお、日本語で尋ねてもOKです。OpenFlamingoは英語で返します。





OpenFlamingoはFlamingoの論文で提案されたものと同じアーキテクチャを実装していますが、Flamingoのトレーニングデータは公開されていないため、OpenFlamingoのトレーニングにはオープンソースのデータセットが使用されました。具体的には、今回公開されたOpenFlamingo-9Bは、サンプル数500万のMultimodal C4データセットと、サンプル数1000万のLAION-2Bで訓練されています。



LAIONは「OpenFlamingo-9Bモデルの最初のチェックポイントを共有します。このモデルはまだ完全に最適化されているわけではありませんが、このプロジェクトの可能性を示しています。これらのモデルを公開することで、有害な使い方をされる可能性があることは理解しています。しかし、研究コミュニティにとって、大規模なマルチモーダルモデルの害を研究することは重要であり、これらのモデルをオープンソース化することで、コミュニティが将来のモデルでこうした害を軽減するためのより良い方法を開発することができると信じています」と述べました。