実はYouTubeショートにGoogleのDeepMindが開発する新型AIモデル「Flamingo」が使われていることが判明

GoogleのAI部門であるGoogle DeepMindが、YouTubeで最大60秒の縦型動画を共有する「YouTubeショート」で、視覚言語モデル「Flamingo」を使って動画のメタデータを自動生成していることを明らかにしました。
Our powerful visual language model Flamingo is changing the way ???????????? can watch @YouTube Shorts. ????
— Google DeepMind (@DeepMind) May 24, 2023
It automatically generates descriptions for hundreds of millions of videos in their metadata, making them more searchable.
Here’s how AI is helping creators and viewers. ⬇️ pic.twitter.com/pAt7MxFNs1
A Google DeepMind AI language model is now making descriptions for YouTube Shorts - The Verge
https://www.theverge.com/2023/5/24/23735850/google-deepmind-ai-flamingo-language-model-descriptions-youtube-shorts
YouTubeショートは説明文やタイトルが十分に整っていないことが多く、このことがYouTubeショートの動画の検索性を低くしている原因になっているそうです。Google DeepMindのコリン・マードックCEOによると、YouTubeショートの場合、動画の作成プロセスが長い動画よりもシンプルで合理的であるため、クリエイターがメタデータを追加しないことがあるとのこと。
また、YouTubeショートの製品管理ディレクターであるトッド・シャーマン氏は「YouTubeショートはフィード上で視聴されることがほとんどで、積極的に検索して動画を探し出すのではなく、次の動画にスワイプして見つけるスタイルなので、メタデータを追加するインセンティブはそれほど高くありません」と述べています。
視覚言語モデルのFlamingoは、動画の最初のフレームを分析し、言語化することで説明文を自動で作成します。

この説明文はユーザーから見えるものではなく、あくまでもメタデータとして保存され、YouTubeショートの動画の検索性を向上させるために活用されます。

シャーマン氏は「FlamingoモデルはYouTubeショートの動画を理解し、説明的なテキストを提供します。この機能は、メタデータを必要としている検索システムにとって非常に価値があります。これによって、ユーザーはビデオを適切に検索できるようになります」と述べています。

IT系ニュースサイトのThe Vergeは、YouTubeショート以外の動画にもFlamingoによるメタデータ作成が行われるかどうかをシャーマン氏に質問しています。シャーマン氏は「その可能性は十分に考えられますが、その必要性はYouTubeショートに比べると少しは低くなると思います」とコメント。長い動画の場合は、クリエイターが撮影や編集に何時間も費やし、動画のメタタグやサムネイルなどにも細かく手を入れるため、Flamingoでわざわざメタデータを作成する意味が薄くなります。
なお、The VergeはAIのFlamingoが動画を分析してテキストタグをつけることについて、過去にGoogleフォトが黒人をゴリラとタグ付けした事件に言及し、「重大な間違いを犯し、クリエイターに損害を与え、Googleを大きな批判にさらす可能性があります」と指摘しています。
GoogleのAIが黒人を「ゴリラ」と分類した事件から8年が経過してもGoogle・Apple・Amazon・MicrosoftのAIはゴリラのラベル付けを避けている - GIGAZINE

・関連記事
画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中 - GIGAZINE
ChatGPTの開発元OpenAIが「10年以内にAIがほとんどの分野で専門家のスキルレベルを超える」という懸念に基づき「超知能AI」の登場に備えるべく世界的な規制機関を立ち上げる必要があると主張 - GIGAZINE
「政府はAIに仕事を奪われる人への対応策を考えるべき」とGoogleに買収されたAI企業・DeepMindの創設者が警告 - GIGAZINE
Anthropicのテキスト生成AI「Claude」がOpenAIのGPT-4の約3万2000トークンの3倍近い10万トークンに対応して長文の入力も可能に - GIGAZINE
・関連コンテンツ
in ソフトウェア, ネットサービス, 動画, Posted by log1i_yk
You can read the machine translated English article In fact, it turns out that the new AI mo….