ソフトウェア

Googleの自然言語処理モデル「BERT」はインターネット上から偏見を吸収してしまうという指摘

by ScribblingGeek

Googleが「Bidirectional Encoder Representations from Transformers(BERT)」と呼ばれる自然言語処理モデルを2018年10月に発表しました。BERTはGoogleの検索エンジンでも使用されており、Wikipediaのエントリやニュース記事、古書などのデジタル化された情報から学習を行います。しかし、このBERTの学習スタイルは、ネット上の情報源に眠る偏見や差別も一緒に学習してしまうという問題が指摘されています。

We Teach A.I. Systems Everything, Including Our Biases - The New York Times
https://www.nytimes.com/2019/11/11/technology/artificial-intelligence-bias.html


従来のニューラルネットワークを用いた自然言語処理モデルは、文章解釈や感情の分析など、特定のタスクのみに対応しています。インターネット技術が発達したことで、膨大なテキストデータを簡単に入手可能となりましたが、特定のタスクのためにラベル付けされたデータセットを用意するのにはかなりの労力とコストがかかります。

それに対してBERTは、インターネット上にある大量のラベル付けされていないデータから事前学習を行うことができます。また、既に学習済みのモデルを使って新たなモデルを生成する転移学習が可能。これによって、少ないデータやモデルでさまざまなタスクに特化することができるのがBERTの利点です。


しかし、インターネット上のテキストデータで事前学習を行うことによって、AIがジェンダーバイアスも一緒に学習してしまうと指摘されています。実際にコンピューター科学者のロバート・マンロー氏が「お金」「馬」「家」「行動」といった一般的な単語100個をBERTに入力したところ、99個が男性に関連付けられ、唯一「ママ」という単語だけが女性に関連付けられていたとのこと。また、カーネギーメロン大学の研究者が2019年6月に発表した(PDFファイル)論文でも、例えば「プログラマー」という言葉が女性よりも男性に関連付けられる可能性が高いと報告しています。

「この偏見は私たちが今まで目にしてきた不平等と同じものです。BERTのようなものがあれば、この偏見は社会に残り続ける可能性があります」とマンロー氏はコメントしています。


さらに、マンロー氏はGoogleやAWSのクラウドコンピューティングサービスで動いている主要なAIシステムが、「his(彼のもの)」という代名詞は正しく認識したのに対して、「hers(彼女のもの)」は認識できなかったことをブログで報告しています。

ニューヨークタイムズの取材に対して、Googleの広報担当者は「私たちはこの問題を認識していて、問題に対処して解決するために必要な措置を講じています」とコメント。また、Amazonは「システムから偏見をなくすことは、AIの原則の1つであり、最優先事項です。厳密なベンチマーク、テスト、投資、非常に正確な技術と多様なトレーニングデータが必要です」と述べました。

しかし、ワシントン大学で計算言語学を研究するエミリー・ベンダー教授は「BERTをはじめとする最先端の自然言語処理モデルはあまりにもシステムが複雑で、『最終的に何をするか』を予想することは難しいものがあります。BERTなどのシステムを構築している開発者でさえ、その動作を理解していません」とコメントし、AIが偏見を学習してしまうことを予想したり、既に学習してしまった偏見を取り除くのは至難の業だと主張しています。

by See-ming Lee

自然言語技術を専門とするスタートアップPrimerのショーン・ゴーリーCEOは「新しいAI技術の振る舞いを吟味することが非常に重要になります。AIが偏見を学習していないか、あるいは予期せぬ振る舞いをしないか監査する『AI専門の監査企業』という、おそらく10億ドル(約1100億円)規模となる新しい企業種が誕生することでしょう」と予測しました。

この記事のタイトルとURLをコピーする

・関連記事
「AIによるセールストークは人間の4倍も高い売上をみせた」という調査結果 - GIGAZINE

Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開 - GIGAZINE

「難解な論文をわかりやすく要約してくれるAI」が開発される - GIGAZINE

自然言語処理などに利用されるAIモデルは言葉の「言い換え」に脆弱であると研究者らが指摘 - GIGAZINE

Facebookが90言語以上の機械翻訳を加速させるためのツールキット「LASER」を公開中 - GIGAZINE

ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1i_yk

You can read the machine translated English article here.