メモ

学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張


機械学習における過学習(過剰適合/オーバーフィッティング)とは、AIが学習データのみに最適化されてしまい、未知のデータに対する予測能力が低くなってしまうという現象です。そんな過学習と同様の現象が機械学習分野だけでなく社会全体のさまざまな場面でも発生していると、Google傘下の人工知能研究所・Google Brainの研究者であり近年の画像生成AIに広く用いられている「拡散モデル」の論文執筆者でもあるJascha Sohl-Dickstein氏が主張しています。

Too much efficiency makes everything worse: overfitting and the strong version of Goodhart’s law | Jascha’s blog
https://sohl-dickstein.github.io/2022/11/06/strong-Goodhart.html

機械学習分野において広く見られる過学習を考える上で重要なのが、「特定の目標に向けて作られたAIは目標そのもので訓練できないため、訓練には目標に似た『プロキシ』を用いる」という点です。たとえば、「新しい画像分類モデルの精度向上」が目標だった場合、この目標達成度を測定するためのテストデータセットでモデルを訓練することは不正となるため、代わりにプロキシとなる訓練用データセットで訓練を行います。また、訓練中の精度向上を測定するための指標も、実際のテストデータセットによるものではなく、訓練用データセットを用いたプロキシ目標が設定されます。

以下の画像はモデルの学習と目標の改善を示した図で、虹色の線が目標の改善度を、黒色の線がプロキシの改善度を示しています。実際にプロキシとなるデータセットを用いた訓練が始まると、プロキシ目標の改善と共に、実際のモデル精度向上という目標も改善が進みます。


しかし、最適化を進めていくとある時点でプロキシと実際の目標との類似性が使い果たされ、プロキシの改善が進む一方で目標の改善が停滞するという現象が起こります。機械学習分野において、この現象を過学習と呼びます。


すでに目標の改善が停滞しているのにプロキシの最適化を進めていくと、目標の達成度が悪化し始めることもあります。過学習の問題は機械学習分野で非常に一般的であり、目標とプロキシが何なのかや使用するモデルアーキテクチャにほとんど関係なく現れるとのこと。


Sohl-Dickstein氏は機械学習における過学習について、グッドハートの法則との類似性を指摘します。グッドハートの法則とは「成果を測るための尺度が目標になってしまうと、成果測定自体が役に立たなくなる」という現象のことであり、提唱したイギリスの経済学者チャールズ・グッドハート氏にちなんで名付けられました。グッドハートの法則は金融政策の文脈で提案されたものですが、Sohl-Dickstein氏はこれが過学習にも当てはまると考えています。

機械学習においてプロキシの最適化が進むと目標の改善が止まってしまう状態は、確かに「尺度が目標になると役立たずになる」というグッドハートの法則と類似してします。さらにSohl-Dickstein氏は、「尺度が目標となった状態で最適化が進むと、当初の目標達成度は悪化する」という状態を、「グッドハートの法則の強力なバージョン」と呼んでいます。


Sohl-Dickstein氏は、グッドハートの法則の強力なバージョンは機械学習を超え、社会経済的な問題にも適用できると主張しています。グッドハートの法則の強力なバージョンが当てはまる例として、Sohl-Dickstein氏は以下のものを挙げています。

ゴール:子どもたちをよりよく教育する
プロキシ:標準化されたテストによる成績測定
結果:学校はテストで測りたい基礎的な学問スキルの教育を犠牲にして、「テストに正しく答えるスキル」の教育を進める

ゴール:科学の進歩
プロキシ:科学論文の出版に対してボーナスを支払う
結果:不正確または微妙な成果の公開、査読者と著者の共謀が広まる

ゴール:よい生活
プロキシ:脳内の報酬経路の最大化
結果:薬物やギャンブル中毒になったり、Twitterに時間を費やしたりする

ゴール:国民の利益のために行動するリーダーの選出
プロキシ:投票で最も支持されるリーダーの選出
結果:世論操作のうまいリーダーの選出

ゴール:社会のニーズに基づく労働力と資源の分配
プロキシ:資本主義
結果:貧富の格差の増大


Sohl-Dickstein氏は、グッドハートの法則の強力なバージョンがもたらす社会的な問題を解決するため、機械学習において過学習を避けるためのアプローチが有効かもしれないと提案しています。実際にSohl-Dickstein氏が、機械学習で過学習を避けるためのアプローチを現実社会の問題に反映してみた事例が以下。

対策:プロキシの目標をより望ましい結果に合わせる
機械学習において過学習を避ける1つの方法が、テストと可能な限り類似した訓練データを慎重に収集するというものです。現実社会でも、法律・インセンティブ・社会規範といった制御可能なプロキシを変更し、より目標に適した行動を促すように調整できます。

対策:正則化によるペナルティを設定する
正則化とは、パラメーターの大きさに応じて評価を下げることで、あえて推定の精度を下げて過学習を防ぐというものです。Sohl-Dickstein氏はこれを「モデルの典型例から逸脱するものにペナルティを課す」としており、メールの送受信や訴訟の件数、企業が保有するユーザーデータ量など、多すぎる場合に何かしらの不公平が生まれる場合にコストを課す方法を提案しています。

対策:システムのノイズを注入する
過学習を防ぐため、機械学習ではあえてモデルの学習データやパラメーターにノイズを注入する場合があります。現実世界では、「会社の採用試験にランダム性を持たせて多様性を確保する」「テストの日程を事前に通知するのではなくクラスごとにランダム化することで、テスト前に過剰な詰め込み学習を行うことを防ぐ」「証券取引所の処理システムにタイムラグを設定し、人間の反応速度を超えた取引を無効化する」といった導入例が考えられるとのこと。


対策:早い段階で学習を停止する
機械学習では予測値と正解値のズレを「loss(損失)」として計測していますが、同時に「validation loss(検証損失)」と呼ばれる指標を計測し、検証損失が悪化し始めたらその他の損失が改善している場合でも学習を停止することで、過学習に陥るのを防ぐことができるとのこと。Sohl-Dickstein氏は、「株式の値動きが一定値を超えたらすべての市場取引をストップする」「選挙前の48時間は報道機関をシャットダウンする」といった例を挙げています。

対策:モデルの容量を制限する
機械学習では、モデルの容量を非常に小さくすることで過学習を防ぐこともあります。現実世界では、「選挙資金に上限を設ける」「特定の会社で働くことができる最大人数を決める」「AIが使用できるパラメーターや訓練用コンピューター性能を制限する」といったものが挙げられるそうです。

対策:モデルの容量を拡大する
「モデルの容量を制限する」という対策とは反対に、モデルを非常に大きくすることで目標達成度の低下を避ける場合もあるそうです。現実世界では「すべてのプライバシーを抹消し、個人や組織に関するすべての情報を誰もが入手できるようにする」「複雑で不可解な金融商品を開発し、さまざまなタイムスケールで権利を確定させる」といったものが考えられますが、これらの例は必ずしも人々にとって有益とは言えない可能性があります。Sohl-Dickstein氏も、プライバシーの抹消は「私の価値観からすればディストピアです」と述べています。

この記事のタイトルとURLをコピーする

・関連記事
余計な「念のため」でプロジェクトが死に至る「オーバーエンジニアリング」の問題とは? - GIGAZINE

人間は問題解決のために新しい要素を「追加」しがちであり既存の要素を「取り除く」ことは不得意 - GIGAZINE

コンピューター科学者が示す「これまでのAIと現在のAI、そしてそれらが将来もたらすであろうもの」とは? - GIGAZINE

最も効率的に学習できる問題の難度は「正答率85%レベル」であることが判明 - GIGAZINE

ソフトウェア開発プロジェクトにはどうして遅延が生じてしまうのか - GIGAZINE

in メモ, Posted by log1h_ik

You can read the machine translated English article here.