ソフトウェア

「欠陥のある自動採点システム」が何百万人もの学生の小論文を評価している

By Besjunior

受験や卒業などに「試験」はついて回るものですが、多数の生徒の試験を採点しようとすると、その仕事量は膨大なものになってしまいます。アルゴリズムによる自動採点は人間の負担を軽減してくれるとしてアメリカでは一般的になりつつありますが、「文章の採点に関しては自動採点はまだまだ信頼できない」とMotherboardが報じています。

Flawed Algorithms Are Grading Millions of Students’ Essays - VICE
https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

アルゴリズムを用いた論文自動採点システムは「自動言語処理AIシステム(Natural language processing artificial intelligence systems)」と名付けられているものですが、一般的には「小論文自動採点システム」とも呼ばれています。Motherboardの指摘する小論文自動採点システムの問題点その1は、小論文自動採点システムがバイアスを持っているという点です。この小論文自動採点システムは、「人間の採点者が高い点数をつけた小論文」「低い点数をつけた小論文」との相関するパターンを認識することで採点を行っています。しかし、人種に根ざした文章上の「方言」に対して、人間の採点者が自身の偏見に基づいて加点・減点を行うため、小論文自動採点システムも人間の偏見を学習してしまうという問題が生じています。

AIは人間の言葉から女性差別や人種差別を学び取る - GIGAZINE


Educational Testing Service(ETS)TOEICTOEFL、アメリカやカナダなどの大学院進学のために必要な共通試験「Graduate Record Examination(GRE)」などの各種テストを実施する非営利民間団体です。ETSが開発した独自の小論文自動採点システム「e-rater」はGREやTOEFLなど自社のさまざまな試験に用いられていますが、1999年、2004年、2007年、2008年、2012年、2018年の調査の結果、e-raterは特定の人種・国籍に対してバイアスのかかった採点を行うことが判明しています。

そのバイアスとは、中国の学生に高い点数を与え、アフリカ系アメリカ人に低い点数を与えるというもの。GREは6点満点という基準で採点が行われますが、中国の学生は平均1.3点加点され、アフリカ系アメリカ人は平均0.81点減点される傾向があったとのこと。

By master1305

中国の学生は「小論文の長さ」「洗練された単語の使用」という項目で高得点を得る傾向があったそうですが、「多くの中国の学生が洗練された文章を『丸暗記』して、そのまま書いていることが原因ではないか」とMotherboardは記しています。一方で、アフリカ系アメリカ人は「文法」「文体」「文章構成」などの項目で低得点となってしまう傾向があったそうですが、Motherboardは「人間が採点した場合、かなり良い点数になる場合もあった」と述べています。

「こういった人種・国籍に根ざした方言に対するバイアスを是正できないのか」ということに関して、ETSの上級研究員であるBrent Bridgeman氏は、「特定の人種や国籍の方言に対する点数調整を行うと、他の人種・国籍の受験者に対する別のバイアスが出てしまうため、結局は同じことです」と語っています。

ETSが実施している試験で出題されるすべての小論文はe-raterと人間によって採点され、それぞれの点数が乖離していた場合は別の人間によって採点されるとのこと。そのため、ETSは「e-raterのバイアスの影響はない」としているそうです。

By cookelma

小論文自動採点システムのもう1つの問題点とは、洗練された単語を使っていれば内容が意味不明でも高得点を与えてしまうという点です。Motherboardは、マサチューセッツ工科大学のLes Perelman氏が開発した「完成度の高い小論文を意味不明になるようにして、前後の文章で意味がつながらなくする」というソフトウェア「Basic Automatic BS Essay Language Generator(BABEL Generator)」を活用して、単語は洗練されているものの内容が支離滅裂な小論文をGREのオンライン小論文採点サービスScoreltNow!に採点させる実験を行いました。その結果、BABEL Generatorで変換されたエッセイは6点満点中4点を獲得。この点数は「明瞭に意味が伝わる文章で、議論のために十分な能力を有する」とされる点数です。

アメリカでは連邦法によって書面による同意なしにテストの点数を開示することが違法であるため、小論文自動採点システムに対する外部監査や、アルゴリズムに対するバイアスの研究は困難です。しかし、Motherboardは、アメリカの全50州中21州が小論文自動採点システムを採用しており、そのうち18州は採点を小論文自動採点システムにほぼ任せている状態だと報じています。

この記事のタイトルとURLをコピーする

・関連記事
AIの先祖である「書類選考用アルゴリズム」もまた人種・女性差別的だったという事実 - GIGAZINE

AIは人間の言葉から女性差別や人種差別を学び取る - GIGAZINE

ハーバード大がアジア系学生を入試で不利に扱っていたことが明らかに - GIGAZINE

Amazonの極秘AIツールが「女性蔑視だった」という理由で廃棄されていたことが判明 - GIGAZINE

「ヘイトスピーチ検出AI」が逆に人種差別を助長する可能性がある - GIGAZINE

in ソフトウェア, Posted by log1k_iy

You can read the machine translated English article here.