ChatGPTはインターネット上であまり用いられない「非主要言語」を扱うと翻訳ミス・単語をねつ造・非論理的な回答などかなり応答レベルを落とすという報告
OpenAIの対話型AIであるChatGPTは、Googleのコーディング職の試験やロースクールの試験で合格点を記録したり、医師免許試験にも合格したりと、高い精度で回答できる実力がいくつも報告されています。一方で、ChatGPTと英語以外でやりとりしていると、意図がうまく伝わっていないと感じるケースも多くなっています。特に、オンラインで見ることが多くない一部の言語では、論理テストに失敗したり基本的な情報の検索もできなかったりとかなり精度が落ちることが報告されています。
ChatGPT fails in languages like Tamil and Bengali - Rest of World
https://restofworld.org/2023/chatgpt-problems-global-language-testing/
ChatGPTは英語やスペイン語といった主要な言語ではうまく働き、日本語でもある程度問題なく応答が成功しますが、ベンガル語やスワヒリ語、ウルドゥー語、タイ語といったネット上の非主要言語においては、主要言語と同じ品質のテキストを生成するのに苦労します。実際にテクノロジーメディアのRest of Worldがこれらの非主要言語についてChatGPTの応答能力をテストしたところ、存在しない言葉のねつ造や非論理的な回答、まったくナンセンスの応答など、翻訳エラーのレベルをはるかに超える問題が確認されたそうです。
例えば、エチオピアの公用語の1つで700万人以上の話者がいるティグリニャ語は、エチオピアでより有力な言語であるアムハラ語と似た文字を共有していますが、ティグリニャ語とアムハラ語には大きな違いがあり明確に区別されています。しかし、ChatGPTは2つの言語を混同し、どちらのネイティブスピーカーにとっても読みにくい文章を生成すると、Rest of Worldは報告しています。また、「アフリカ諸国の例を挙げて」と質問したところ、英語では10種類のアフリカ諸国が挙げられた一方で、ティグリニャ語で質問した場合は「カナダ」や「ヨルダン」などアフリカ大陸以外の国を挙げたり、全く存在しない国名も挙げたりしています。
Rest of Worldがこの問題について専門家に問い合わせたところ、AIの研究者たちは「名詞や場所、機関などの固有名詞はChatGPTの絶対的な弱点です。特にこの問題は、主要言語以外の多くの言語で共通している問題です」と回答しました。AI研究者の間ではこれらの言語は「低リソース」と呼ばれており、世界で多くの話者に話されている言語であっても、オンラインでの表記が少ないため、その言語に合わせたモデルを十分にトレーニングできていない問題があります。結果として、リソースが少ないトレーニング不足の状態で、ChatGPTは理解できない応答を生成することがしばしば見られています。
同じ問題について、オレゴン大学の研究者は37の異なる言語で複数の執筆タスクをChatGPTに課し、応答のクオリティを比較する研究を行いました。結果として、リソースが比較的少ない言語ではChatGPTのパフォーマンスは劣っており、研究では「トレーニングデータの量が影響しているのは明らかですが、それに加えて、英語とは構造的に異なる言語では、よりChatGPTが苦戦することが分かりました」と結論付けています。
中央アメリカ西インド諸島のハイチなどで使われるハイチ語は、フランス語系に属していますが独自の文法規則を持っていたり、意味やつづりの異なる似た音の単語が多数存在していたりと、独特な特徴を持っています。しかし、ChatGPTはハイチ語をフランス語と混同して不正確なスペルを用いたりフランス語でしか使われない単語を用いたりと、ハイチ語の特徴を理解できない傾向にあります。移民や難民に向けた通訳・翻訳サービスのRespond Crisis Translationでハイチ語を担当するローラ・ワグナー氏は、ChatGPTの生成するハイチ語の文章をレビューした結果として「構文的な間違い、フランス語表現を誤ったもののほか、最も致命的な点として、ChatGPTによるハイチ語の文章は、存在しない単語であふれています」と指摘しています。
さらに、詩などの文学的テキストでも顕著な結果が報告されています。インド南部やスリランカ、シンガポールなどで公用語の1つとして話されているタミル語は7800万人以上の話者を持ち、豊かな文学の歴史を持つ言語とされています。タミル語には「Venpa」と呼ばれるリズム詩のスタイルがありますが、ChatGPTに「Venpaを使って詩を書いて」と命令した結果、英語ではリズムが工夫された詩を作成できたにもかかわらず、Venpaの生みの親であるタミル語では構造が不正確で文章になっていないフレーズも含まれていたほど詩の生成に失敗しました。AI開発者でタミル語版Wordleの作成者であるサンカー氏はRest of Worldからのレビュー依頼を受けて、「私がこの詩をタミル語教師のように評価するとしたら、ChatGPTにはゼロ点をつけることになるでしょう」と回答しています。
オレゴン大学助教授のティエン・グエン氏は「低リソース言語に本質的に欠けているのは、より意味論的な推論や推論による複雑なスキルを実行する部分です。ChatGPTは多くの低リソース言語について、質疑応答の問題と並んで、文章の要約や固有名詞の特定、常識的な推論に苦労していると分かっています」と解説しています。またこの問題についてワシントン大学の人間中心設計と工学の博士課程候補者であるソウロジット・ゴーシュ氏は、「英語が支配するインターネットからデータをスクレイピングしているという根源に、これらの問題は根差しています。そのため、OpenAIに単独の責任が求められるものではありませんが、それでもOpenAIはこうしたデータ格差を是正し、多言語のユーザーからのアクセスを許可し、ChatGPTが言語翻訳タスクを問題なく実行できるという約束を果たすことが最低限の条件です」と語っています。
・関連記事
GPT-4よりも高い性能を発揮できる特定言語特化型の言語モデル「InternLM」 - GIGAZINE
大規模言語モデルにウソの情報を埋め込んで誤った情報を生成させるチャットAI「PoisonGPT」が開発される - GIGAZINE
AIの知能が急激に低下してしまう「ドリフト」問題はなぜ発生するのか? - GIGAZINE
ChatGPTの回答には政治的偏りによるバイアスが潜んでいるという研究結果 - GIGAZINE
60以上の大規模言語モデルに19種類の質問を行うベンチマークテストの結果公開 - GIGAZINE
ChatGPTは単語当てパズルゲーム「Wordle」が苦手なことが判明 - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1e_dh
You can read the machine translated English article It has been reported that when ChatGPT h….