画像をテーマにAIとおしゃべりできる「Minigpt-4」が登場
ChatGPT匹敵する精度とされるチャットAI「Vicuna-13B」と、画像にキャプションを付けられる「BLIP-2」を組み合わせることで、アップロードした画像についてAIと会話できるようにした「Minigpt-4」が、公開されました。
Minigpt-4
https://minigpt-4.github.io/
Minigpt-4を発表したページでは、実際にデモンストレーションに触れることもできます。まず、赤枠の部分をクリックします。
続いて、会話のテーマにしたい画像を選びます。
「Upload & Start Chat」ボタンをクリックします。
アップロードにはしばらく時間がかかります。
準備ができると画像と入力欄が再表示されるので、「User」の欄に質問を入力します。
回答が表示されました。
「Restart」をクリックすると、画像と会話をリセットできます。
アップロードした画像の下部には、「beam search numbers」と「Temperature」のパラメータが配置されています。「beam search numbers」はビームサーチでの数の候補と思われます。この数を増やすと回答が増える傾向があるほか、日本語で質問しても英語で答えが返ってくるようになりました。
「Temperature」は回答の多様性のこと。しかし、いじってみても特に顕著な違いはありませんでした。
記事作成時点では、アクセスが集中しているとのことで、デモのミラーリンクが複数提供されています。
また、ソースコードも公開されているので、ローカルで動作させることも可能です。さらに、1台のGeForce RTX 3090で動作させられる軽量版の開発も進んでいるとのことでした。
GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models
https://github.com/Vision-CAIR/MiniGPT-4
・関連記事
画像生成AIのStable DiffusionやMidjourneyで生成可能な画像とプロンプトを写真やイラストから検索できる「unprompt.ai」 - GIGAZINE
画像生成AI「Stable Diffusion」による画像生成や顔面高解像化などをコマンド一発で実行できる「ImaginAIry」 - GIGAZINE
ブラウザ上で描いたイラストと同じ構図で画像生成AIに絵を描いてもらえる「Scribble Diffusion」が登場 - GIGAZINE
画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい - GIGAZINE
たった1枚の画像から別視点の画像を生成するAIモデル「Zero-1-to-3」をトヨタ・リサーチ・インスティテュートなどの研究チームが開発 - GIGAZINE
画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい - GIGAZINE
たった1枚の画像から別視点の画像を生成するAIモデル「Zero-1-to-3」をトヨタ・リサーチ・インスティテュートなどの研究チームが開発 - GIGAZINE
・関連コンテンツ