2024年01月02日 19時00分 レビュー

画像を分析してキャプションを自動で生成してくれるオープンソースで商用利用も可能なAIモデル「BLIP-2」をReplicate上で使ってみた



AIモデルを誰でも簡単にデプロイできるサイト「Replicate」にて、画像を分析してキャプションを生成するAIモデルのBLIP-2が簡単に利用できるとのことなので、実際にいくつかの画像を元にキャプションを生成させてみました。



LAVIS/projects/blip2 at main · salesforce/LAVIS

https://github.com/salesforce/LAVIS/tree/main/projects/blip2



andreasjansson/blip-2 – Run with an API on Replicate

https://replicate.com/andreasjansson/blip-2



まずReplicateのサイトにアクセスし、右上にある「Sign in」をクリックします。





ReplicateにログインするにはGitHubのアカウントが必要とのこと。「Sign in with GitHub」をクリックします。





権限を確認して「Authorize replicate」をクリック。





ログインできたらBLIP-2のページを開きます。最初からサンフランシスコにあるゴールデンゲートブリッジの画像がデモ用に挿入されていました。





ページを下へスクロールすると「caption」というオプションが存在しています。BLIP-2では画像を元に質問するという使い方も可能ですが、今回はキャプションを付けてもらいたいので「caption」をオンにし、「Run」をクリックして実行。





「golden gate bridge, san francisco, california」とキャプションが付与されました。





画像の下部にある「Drop a file or click to upload」と書かれた枠内に画像をドラッグ&ドロップすることで手持ちの画像にキャプションを付けてもらうことも可能です。試しに「大量発生していたゴキブリを駆逐しまくった最強兵器とは?」記事の画像を入力してみると、「a woman sitting in the back of a pickup truck with her mouth open(ピックアップトラックの後ろに座って口を開けている女性)」というキャプションが生成されました。





「年末ジャンボ宝くじ(第984回全国自治宝くじ)の当せん番号一覧」記事の画像のようにイラストでもキャプションを付けることができました。ただし、BLIP-2が生成したキャプションは「a girl is holding a stuffed animal and a teddy bear(ぬいぐるみとテディベアを抱えた女の子)」となっており、テディベアという誤った情報が付与されてしまいました。





今回のキャプションを付けるデモにはBLIP2_OPT_6.7Bモデルが利用されています。このモデルはMITライセンスで提供されているため無償で使用でき、商用利用も可能とのこと。



ただし、Replicate上で動作させる場合はReplicateの利用料金が必要です。Replicateはある程度の時間までは「お試し」として無料で使えますが、一定時間を超えると推論にかかった時間1秒あたり0.001150ドル(約0.16円)の費用がかかります。事前にクレジットカードを登録する必要はなく、推論できなくなってから登録すればOKとのこと。記事作成時点では「どの程度まで無料で利用できるのか」については記載されていませんでした。





「それぞれの推論に何秒かかったのか」についてはReplicateのダッシュボードを開くと確認できるため、費用の目安を見積もりやすくなっています。今回の記事では3回の推論で合計4.3秒かかったため、費用は約0.7円でした。