2019年02月16日 20時00分ソフトウェア

AIによる自動文章作成ツールがあまりにも高精度のテキストを簡単に作り出してしまうため開発陣から「危険過ぎる」と問題視される

by rawpixel

AI(人工知能)を用いた映像変換技術「Deepfake(ディープフェイク)」の文章版とも言うべきテキストジェネレーターを、イーロン・マスク氏らが出資する非営利のAI研究組織であるOpenAIが開発しました。しかし、あまりにも高精度のテキストを簡単に自動生成できるため、開発陣が「あまりにも危険過ぎる」と危惧しています。

New AI fake text generator may be too dangerous to release, say creators | Technology | The Guardian
https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction

OpenAIが「GPT2」と呼ばれる新しいテキスト生成用のAIモデルを開発しました。しかし、このGPT2はあまりにも優れているため、悪用された場合に非常に高いリスクが生じるということで、技術的な詳細を論文で公表することが延期されることとなりました。

論文を公開することは延期となったのですが、イギリスの大手新聞であるガーディアンがGPT2を利用する機会を得ており、以下のムービーで実際にGPT2がどのようにテキストを自動生成できるのかが見られるようになっています。

How OpenAI writes convincing news stories and works of fiction - YouTube

GPT2はニュースおよびフィクションを自動生成可能なAIモデル。試しにガーディアンで掲載するブレグジット関連の記事を書いてもらおう、ということで出だしの文章を人間が入力します。

人間が作成した出だしの文章は「ブレグジットは既にEU離脱を問う国民投票以来、少なくともイギリス経済に800億ポンド(約11兆円)もの負担をかけています」というもの。

その後、GPT2が自動でテキストを生成。アンダーラインが引かれた部分のテキストは全てGPT2が自動生成したものです。GPT2が生成した続きの文章は、「さらに、多くの業界専門家たちはブレグジットによる経済的損失がさらに大きくなっていくと信じています」というもの。

簡単な出だしの文章を書くだけで、GPT2はそれに連なる文章を違和感なく生成してしまうわけです。

続けてジェーン・オースティンの長編小説である「高慢と偏見」の出だしの文章を入力してみます。

すると、原作とはまったく異なる続きの文章が自動生成されました。ある意味GPT2が「高慢と偏見」の偽の文章を生成してしまったというわけ。

GPT2は数単語の入力により、それ以降に来るであろう文章を予測し自動生成することができるというAIモデル。アウトプットの品質が高く、潜在的にさまざまな用途への応用が効くということから、その危険性を開発した研究者たちは危惧しています。GPT2は簡単にもっともらしい文章を生成することが可能で、「段落の途中でそれまで書いてきたことを忘れる」だったり、「長い文章の構文が荒れる」などの、既存のAIテキストジェネレーターで見られるような欠点を見せることはめったにない、とガーディアンは記しています。

ガーディアンによると、GPT2は2つの点で画期的だそうです。1つはそのサイズで、OpenAIの研究ディレクターであるDario Amodei氏は、「(GPT2のAIモデルは既存の最先端AIモデルよりも)12倍大きく、データセットは15倍も大きく、はるかに広い範囲に対応しています」と語っています。GPT2のAIモデルは海外掲示板のRedditで3票以上獲得しているリンクを探し、該当する約1000万件もの記事をデータセットとしてトレーニングが行われているため、データセットの容量はテキストのみで40GBにもおよんでおり、これは小説の「白鯨」約3万5000冊分と同等のデータサイズだそうです。

GPT2は既存のテキストジェネレーターよりも圧倒的に汎用性が高く、入力されたテキストを構造化することで翻訳や要約などのタスクを実行し、単純な読解テストにも合格可能なレベルの文章を生成できるそうです。GPT2は「翻訳」や「要約」といったタスクに特化する形で構築された他のAIモデルと同等以上のパフォーマンスを発揮するそうで、これが従来のテキスト生成AIモデルにはないもうひとつの大きなアドバンテージになっているとのこと。

ガーディアンで編集者として働くAlex Hern氏によると、以下の新聞に掲載されている文章はGPT2を用いて生成されたもので、一切人の手による修正は加えられていないそうです。加えて、この文章はわずか15秒で生成されたことも明らかになっています。

In print, we used OpenAI’s tool to write its own news story about itself. This is what came out of the very first pass, unedited. pic.twitter.com/detjpnAZLv
— alex hern (@alexhern) 2019年2月15日

しかし、OpenAIはGPT2が生成するテキストの品質があまりにも優れているため、悪意あるユーザーがGPT2を用いることでどういった問題が生じるかをより詳細に検討するために時間が必要だということで、GPT2の公開を延期することを決めました。OpenAIのプライバシーディレクターであるジャック・クラーク氏は、「AIモデルのすべての機能を予測できない場合は、そのモデルで何ができるかを確認する必要があります。それが悪意を持って何ができるかを考えることが得意な人は、我々開発陣よりもはるかに多くいます」と語りました。

OpenAIはGPT2の可能性を正確に評価するためにいくつかの控えめな調整をGPT2に施し、スパムやフェイクニュースを生成可能なバージョンを作り出しています。GPT2がデータセットとして用いているのはあくまでもインターネット上に存在するテキストであるため、これを陰謀論や偏見のあるテキストを生成するためのジェネレーターにすることは比較的難しいことではないとのこと。

なお、OpenAIのクラーク氏は、「テクノロジーを導入するためのコストと価格は減少し続けています。また、テクノロジーをコントロールするためのルールは根本的に変わってしまいました」「我々は自分たちが行っていることが正しいと言っているわけではなく、『これが方法だ』と言っているわけでもありません。我々はより厳密な思考を発展させようとしているだけです。言うならば、道路を渡りながら同時に道路を建設しようとしているようなものです」と語り、新しい技術に対する明確なルールを設定することの必要性を説いています。