Google DeepMindがAI生成テキストを識別するための「SynthIDテキスト」をオープンソース化
GoogleのAI開発部門であるGoogle DeepMindが、AI生成テキストに電子透かしを入れる「SynthIDテキスト」をオープンソース化すると発表しました。
SynthID - Google DeepMind
https://deepmind.google/technologies/synthid/
SynthID: Tools for watermarking and detecting LLM-generated Text | Responsible Generative AI Toolkit | Google AI for Developers
https://ai.google.dev/responsible/docs/safeguards/synthid
SynthIDはAI生成コンテンツに電子透かしを入れることで、AI生成コンテンツか否かを識別するツールです。SynthIDで画像に追加される電子透かしは人間の目では識別できないようになっているため、画像的には変化がありません。また、電子透かしは画像のピクセルに埋め込まれるため、画像にフィルターをかけたり色味を変更したりトリミングしたり圧縮したりしてもそのまま維持可能です。
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表 - GIGAZINE
SynthIDは初めは画像でのみ利用できる電子透かしだったのですが、2024年5月にはテキストや動画にも適用可能となりました。
GoogleがAI生成コンテンツに電子透かしを入れてフェイク拡散を防ぐ「SynthID」をテキストと動画にも拡張、一体どうやって文章に透かしを入れるのか? - GIGAZINE
そんなSynthIDのAI生成テキスト識別ツールとなる「SynthIDテキスト」をオープンソース化することで、誰でも無料でAI生成テキストを識別できるようにするとGoogle DeepMindが発表しています。
Today, we’re open-sourcing our SynthID text watermarking tool through an updated Responsible Generative AI Toolkit.
— Google DeepMind (@GoogleDeepMind) October 23, 2024
Available freely to developers and businesses, it will help them identify their AI-generated content. 🔍
Find out more → https://t.co/n2aYoeJXqn pic.twitter.com/4uRKYaz57Y
SynthIDはAI生成コンテンツに電子透かしを入れるため、さまざまなディープラーニングモデルとアルゴリズムを使用しており、元のコンテンツを損なうことなく電子透かしを直接埋め込みます。AI生成コンテンツか否かを識別する際は、画像・音声・テキスト・動画をスキャンして電子透かしを検出することで、コンテンツ全体またはその一部がGoogleのAIツールによって生成されたかどうかをユーザーが判断できるようにします。
画像および動画ではピクセルに人間の目には見えない電子透かしを追加しますが、テキストの場合はテキストに含まれる単語が透かしとして機能します。
大規模言語モデル(LLM)の情報処理単位である「トークン」は、単一の文字、単語、フレーズの一部を表します。一貫性のあるテキストのシーケンスを作成するため、LLMは次に生成される可能性が最も高いトークンを予測しており、この予測は前の単語と各潜在的なトークンに「確率スコア」として割り当てられます。
例えば、「私の好きなトロピカルフルーツは○○です」というフレーズの場合、LLMは○○の部分に「マンゴー」「ライチ」「パパイヤ」「ドリアン」などのトークンを割り当てることで文章を完成させます。各トークンには確率スコアが付与されており、選択できるトークンが複数ある場合、SynthIDは出力の品質、精度、創造性が損なわれない限り、予測された各トークンの確率スコアを調整できます。
このプロセスは生成されたテキスト全体で繰り返されるため、ひとつの文に10以上の調整された確率スコアが含まれることがあり、1ページ当たり数百もの調整された確率スコアが含まれるケースも。そこで、SynthIDはモデルの単語選択と調整された確率スコアを組み合わせた最終的なスコアパターンを、AI生成テキストにおける透かしと見なします。この手法はテキストが長くなればなるほど堅牢性と精度が向上するそうです。
以下の青色部分で強調されている部分がSynthIDの電子透かしとして機能する部分。
SynthIDのテキストに透かしを入れるテクノロジーは、2024年10月23日にNatureで研究論文として発表され、より安全なAIアプリケーションを作成するためのガイダンスおよび必須ツールである「Responsible Generative AI Toolkit」を通じてオープンソースツールとして提供されることが発表されました。
なお、SynthIDテキストはHugging Faceでも公開されています。
Synthid Text - a Hugging Face Space by google
https://huggingface.co/spaces/google/synthid-text
・関連記事
GoogleがAI生成コンテンツに電子透かしを入れてフェイク拡散を防ぐ「SynthID」をテキストと動画にも拡張、一体どうやって文章に透かしを入れるのか? - GIGAZINE
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表 - GIGAZINE
OpenAIが「AI生成画像かどうかを見分けるツール」を開発中 - GIGAZINE
OpenAIやGoogleなど大手AI開発企業が「AI生成コンテンツに透かしを入れる」などAIの安全性強化に取り組むことを発表 - GIGAZINE
人間が「AIが書いた文章」を特定できる確率は約50%でコイントスと同じレベルに過ぎない - GIGAZINE
・関連コンテンツ