2023年04月18日 20時00分ソフトウェア

画像をテーマにAIとおしゃべりできる「Minigpt-4」が登場

ChatGPT匹敵する精度とされるチャットAI「Vicuna-13B」と、画像にキャプションを付けられる「BLIP-2」を組み合わせることで、アップロードした画像についてAIと会話できるようにした「Minigpt-4」が、公開されました。

Minigpt-4
https://minigpt-4.github.io/

Minigpt-4を発表したページでは、実際にデモンストレーションに触れることもできます。まず、赤枠の部分をクリックします。

続いて、会話のテーマにしたい画像を選びます。

「Upload ＆ Start Chat」ボタンをクリックします。

アップロードにはしばらく時間がかかります。

準備ができると画像と入力欄が再表示されるので、「User」の欄に質問を入力します。

回答が表示されました。

「Restart」をクリックすると、画像と会話をリセットできます。

アップロードした画像の下部には、「beam search numbers」と「Temperature」のパラメータが配置されています。「beam search numbers」はビームサーチでの数の候補と思われます。この数を増やすと回答が増える傾向があるほか、日本語で質問しても英語で答えが返ってくるようになりました。

「Temperature」は回答の多様性のこと。しかし、いじってみても特に顕著な違いはありませんでした。

記事作成時点では、アクセスが集中しているとのことで、デモのミラーリンクが複数提供されています。

また、ソースコードも公開されているので、ローカルで動作させることも可能です。さらに、1台のGeForce RTX 3090で動作させられる軽量版の開発も進んでいるとのことでした。

GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models
https://github.com/Vision-CAIR/MiniGPT-4