ソフトウェア

画像をテーマにAIとおしゃべりできる「Minigpt-4」が登場


ChatGPT匹敵する精度とされるチャットAI「Vicuna-13B」と、画像にキャプションを付けられる「BLIP-2」を組み合わせることで、アップロードした画像についてAIと会話できるようにした「Minigpt-4」が、公開されました。

Minigpt-4
https://minigpt-4.github.io/


Minigpt-4を発表したページでは、実際にデモンストレーションに触れることもできます。まず、赤枠の部分をクリックします。


続いて、会話のテーマにしたい画像を選びます。


「Upload & Start Chat」ボタンをクリックします。


アップロードにはしばらく時間がかかります。


準備ができると画像と入力欄が再表示されるので、「User」の欄に質問を入力します。


回答が表示されました。


「Restart」をクリックすると、画像と会話をリセットできます。


アップロードした画像の下部には、「beam search numbers」と「Temperature」のパラメータが配置されています。「beam search numbers」はビームサーチでの数の候補と思われます。この数を増やすと回答が増える傾向があるほか、日本語で質問しても英語で答えが返ってくるようになりました。


「Temperature」は回答の多様性のこと。しかし、いじってみても特に顕著な違いはありませんでした。


記事作成時点では、アクセスが集中しているとのことで、デモのミラーリンクが複数提供されています。


また、ソースコードも公開されているので、ローカルで動作させることも可能です。さらに、1台のGeForce RTX 3090で動作させられる軽量版の開発も進んでいるとのことでした。

GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models
https://github.com/Vision-CAIR/MiniGPT-4

この記事のタイトルとURLをコピーする

・関連記事
画像生成AIのStable DiffusionやMidjourneyで生成可能な画像とプロンプトを写真やイラストから検索できる「unprompt.ai」 - GIGAZINE

画像生成AI「Stable Diffusion」による画像生成や顔面高解像化などをコマンド一発で実行できる「ImaginAIry」 - GIGAZINE

ブラウザ上で描いたイラストと同じ構図で画像生成AIに絵を描いてもらえる「Scribble Diffusion」が登場 - GIGAZINE

画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい - GIGAZINE

たった1枚の画像から別視点の画像を生成するAIモデル「Zero-1-to-3」をトヨタ・リサーチ・インスティテュートなどの研究チームが開発 - GIGAZINE

画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい - GIGAZINE

たった1枚の画像から別視点の画像を生成するAIモデル「Zero-1-to-3」をトヨタ・リサーチ・インスティテュートなどの研究チームが開発 - GIGAZINE

in ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.