ソフトウェア

Google DeepMindがAI生成テキストを識別するための「SynthIDテキスト」をオープンソース化


GoogleのAI開発部門であるGoogle DeepMindが、AI生成テキストに電子透かしを入れる「SynthIDテキスト」をオープンソース化すると発表しました。

SynthID - Google DeepMind
https://deepmind.google/technologies/synthid/

SynthID: Tools for watermarking and detecting LLM-generated Text  |  Responsible Generative AI Toolkit  |  Google AI for Developers
https://ai.google.dev/responsible/docs/safeguards/synthid

SynthIDはAI生成コンテンツに電子透かしを入れることで、AI生成コンテンツか否かを識別するツールです。SynthIDで画像に追加される電子透かしは人間の目では識別できないようになっているため、画像的には変化がありません。また、電子透かしは画像のピクセルに埋め込まれるため、画像にフィルターをかけたり色味を変更したりトリミングしたり圧縮したりしてもそのまま維持可能です。

Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表 - GIGAZINE


SynthIDは初めは画像でのみ利用できる電子透かしだったのですが、2024年5月にはテキストや動画にも適用可能となりました。

GoogleがAI生成コンテンツに電子透かしを入れてフェイク拡散を防ぐ「SynthID」をテキストと動画にも拡張、一体どうやって文章に透かしを入れるのか? - GIGAZINE


そんなSynthIDのAI生成テキスト識別ツールとなる「SynthIDテキスト」をオープンソース化することで、誰でも無料でAI生成テキストを識別できるようにするとGoogle DeepMindが発表しています。


SynthIDはAI生成コンテンツに電子透かしを入れるため、さまざまなディープラーニングモデルとアルゴリズムを使用しており、元のコンテンツを損なうことなく電子透かしを直接埋め込みます。AI生成コンテンツか否かを識別する際は、画像・音声・テキスト・動画をスキャンして電子透かしを検出することで、コンテンツ全体またはその一部がGoogleのAIツールによって生成されたかどうかをユーザーが判断できるようにします。


画像および動画ではピクセルに人間の目には見えない電子透かしを追加しますが、テキストの場合はテキストに含まれる単語が透かしとして機能します。

大規模言語モデル(LLM)の情報処理単位である「トークン」は、単一の文字、単語、フレーズの一部を表します。一貫性のあるテキストのシーケンスを作成するため、LLMは次に生成される可能性が最も高いトークンを予測しており、この予測は前の単語と各潜在的なトークンに「確率スコア」として割り当てられます。

例えば、「私の好きなトロピカルフルーツは○○です」というフレーズの場合、LLMは○○の部分に「マンゴー」「ライチ」「パパイヤ」「ドリアン」などのトークンを割り当てることで文章を完成させます。各トークンには確率スコアが付与されており、選択できるトークンが複数ある場合、SynthIDは出力の品質、精度、創造性が損なわれない限り、予測された各トークンの確率スコアを調整できます。

このプロセスは生成されたテキスト全体で繰り返されるため、ひとつの文に10以上の調整された確率スコアが含まれることがあり、1ページ当たり数百もの調整された確率スコアが含まれるケースも。そこで、SynthIDはモデルの単語選択と調整された確率スコアを組み合わせた最終的なスコアパターンを、AI生成テキストにおける透かしと見なします。この手法はテキストが長くなればなるほど堅牢性と精度が向上するそうです。

以下の青色部分で強調されている部分がSynthIDの電子透かしとして機能する部分。


SynthIDのテキストに透かしを入れるテクノロジーは、2024年10月23日にNatureで研究論文として発表され、より安全なAIアプリケーションを作成するためのガイダンスおよび必須ツールである「Responsible Generative AI Toolkit」を通じてオープンソースツールとして提供されることが発表されました。

なお、SynthIDテキストはHugging Faceでも公開されています。

Synthid Text - a Hugging Face Space by google
https://huggingface.co/spaces/google/synthid-text

この記事のタイトルとURLをコピーする

・関連記事
GoogleがAI生成コンテンツに電子透かしを入れてフェイク拡散を防ぐ「SynthID」をテキストと動画にも拡張、一体どうやって文章に透かしを入れるのか? - GIGAZINE

Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表 - GIGAZINE

OpenAIが「AI生成画像かどうかを見分けるツール」を開発中 - GIGAZINE

OpenAIやGoogleなど大手AI開発企業が「AI生成コンテンツに透かしを入れる」などAIの安全性強化に取り組むことを発表 - GIGAZINE

人間が「AIが書いた文章」を特定できる確率は約50%でコイントスと同じレベルに過ぎない - GIGAZINE

in ソフトウェア, Posted by logu_ii

You can read the machine translated English article here.