2019年04月27日 09時00分サイエンス

「難解な論文をわかりやすく要約してくれるAI」が開発される

by rawpixel.com

専門雑誌に掲載された難解な論文を読み込み、科学的背景を持たない読者にもわかりやすいようにかみ砕いて文章として伝える「サイエンスライター」と同じように機能するAIをマサチューセッツ工科大学(MIT)の研究者らが発表しました。

Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications | Transactions of the Association for Computational Linguistics | MIT Press Journals
https://www.mitpressjournals.org/doi/full/10.1162/tacl_a_00258

Rotational Unit of Memory
http://super-ms.mit.edu/rum.html

Can science writing be automated? | MIT News
http://news.mit.edu/2019/can-science-writing-be-automated-ai-0418

MITの大学院生であるRumen Dangovski氏とLi Jing氏、物理学教授のMarin Soljačić氏らの研究チームは、専門的な論文を1、2文程度に要約するAIを開発しました。AIが生成できる文章は非常に短いため、2019年4月時点では実際のサイエンスライターが作成するような記事を作り出すことはできないとのことですが、大量の論文を読む際に軽くチェックして内容を予備的に把握するのに役立つ可能性があります。

もともと、研究チームは物理学的な問題に対処することを目的としてAIでのアプローチを試みていたそうで、論文の要約などの処理に焦点を当てていなかったそうです。ところが、研究チームは自身が開発したアプローチが物理学の分野だけでなく、自然言語処理を含むほかの分野にも同じアプローチが適用できることに気づいたとのこと。

by Mike MacKenzie

一般的なニューラルネットワークは、コンピューターが非常に多くの事例についてのパターンを「学習」して進歩します。たとえば写真に写っているオブジェクトを識別したり、写真や音声から特定のものを抜き出したりするシステムに、ニューラルネットワークは広く活用されています。

その一方で、ニューラルネットワークは長い一連のデータから情報をピックアップし、関連付けることが困難だとのこと。この能力は長い論文から必要な情報を見つけ出して要約する、サイエンスライターのような仕事に求められる技術の一つです。長距離の依存関係をモデル化する長期短期記憶(LSTM)ネットワークなどの手法がこの問題を解決するために使用されていますが、自然言語処理を実用的なものに近づけるには至っていません。

研究チームは従来のニューラルネットワークに使われてきた行列の乗算に基づくシステムではなく、多次元空間で回転するベクトルに基づく代替システムを考案しました。このシステムは「記憶回転単位(rotational unit of memory)」と名付けられており、研究チームは「RUM」と呼んでいます。RUMはニューラルネットワークが要素を記憶するのを助け、より正確に要素を思い出すことにも有効とのこと。RUMはもともと光の振る舞いのような複雑な物理学的問題を解決するために考案されたアプローチでしたが、やがて研究チームはRUMが自然言語処理のような他分野でも有用である可能性に気づきました。

自然言語処理において、RUMは文章中に登場する個々の単語を多次元空間におけるベクトルで表すとのこと。文章中の単語が特定の長さと特定の向きを持つ線になることで、数千もの次元を持つ理論上の空間で文章が表され、最終的なベクトルが文章となって出力されると研究チームは述べています。

試しに研究チームがLSTMネットワークを用いた要約AIに、「Baylisascariasis」という動物に感染する回虫の一種に関する論文を読み込ませ、要約を出力してみたところ、以下のような文章が生成されました。この要約は非常に反復的であり、実用に耐えうる精度であるとはいえません。

◆原文：

“Baylisascariasis,” kills mice, has endangered the allegheny woodrat and has caused disease like blindness or severe consequences. This infection, termed “baylisascariasis,” kills mice, has endangered the allegheny woodrat and has caused disease like blindness or severe consequences. This infection, termed “baylisascariasis,” kills mice, has endangered the allegheny woodrat.

日本語に直すと以下のようになります。

◆日本語訳：
「Baylisascariasis」はネズミを殺し、アレゲニーウッドラットを危険にさらして失明や重大な結果をもたらしてきました。この感染症は「Baylisascariasis」と呼ばれ、ネズミを殺し、アレゲニーウッドラットを危険にさらして失明や重大な結果をもらしてきました。この感染症は「Baylisascariasis」と呼ばれ、ネズミを殺し、アレゲニーウッドラットを危険にさらしてきました。

一方でRUMに基づいた要約AIに同じ論文を読み込ませたところ、出力されたのは以下のような文章でした。この要約はLSTMネットワークを用いたAIによる要約よりも読みやすく、反復的な部分も少なくなっています。

◆原文：

Urban raccoons may infect people more than previously assumed. 7 percent of surveyed individuals tested positive for raccoon roundworm antibodies. Over 90 percent of raccoons in Santa Barbara play host to this parasite.

日本語に直すと以下のようになります。

◆日本語訳：
都会のアライグマは従来想定されていた以上に、人間に感染するかもしれません。調査対象となった人々のうち7％がアライグマ回虫抗体に陽性反応を示しました。サンタバーバラに住む90％以上のアライグマがこの寄生虫の宿主になっています。

by Alias 0591

イギリスのAI開発企業であるDeepMindでAI研究を行うÇağlar Gülçehre氏は、AIにおいて時間や空間的に離れた場所にある関連要素を結びつけることは、非常に根本的で重要な問題だったと指摘。「今回の研究が全ての問題を解決するわけではないと思いますが、質疑応答やテキスト要約、連想などのタスクに関する有望な結果を示しています」とGülçehre氏は述べました。

・関連コンテンツ

2019年04月27日 09時00分00秒 in AI, ソフトウェア, サイエンス, Posted by log1h_ik

You can read the machine translated English article “AI will be developed to summarize dif….