ソフトウェア

2000種類以上ものアフリカの諸言語を機械翻訳可能にするオープンソースプロジェクト「Masakhane」

by World Bank Photo Collection

アフリカ大陸で使われる言語は英語やフランス語、アラビア語の方言など一般に知られているものだけでなく、アフリカの部族が昔から使ってきた言語も非常に多く使われています。一説によるとアフリカ大陸に存在する言語は2000個を超え、さまざまな言語に分かれていることはコミュニケーションおよび商取引の障害にもなり得ます。そこで2019年、アフリカのAI研究者やエンジニアらは「Masakhane」というオープンソースプロジェクトを作成し、「機械翻訳を使ってアフリカの諸言語を翻訳する壮大な試み」をスタートしました。

Masakhane
https://www.masakhane.io/

The Masakhane project wants machine translation and AI to transform Africa | VentureBeat
https://venturebeat.com/2019/11/27/the-masakhane-project-wants-machine-translation-and-ai-to-transform-africa/


Masakhaneを立ち上げたのは南アフリカのAI研究者であるJade Abbott氏とLaura Martinus氏であり、プロジェクトはアフリカ全土のAI研究者およびデータサイエンティストと協力して行われています。2人は2019年に機械学習や自然言語処理(NLP)関連のカンファレンスで出会った際に、アフリカの言語を機械学習モデルで翻訳するプロジェクトについて話し合い、Masakhaneをスタートしました。「Masakhane」というプロジェクト名は、ズールー語で「私たちで一緒に作る」という意味を持つ言葉だとのこと。

Masakhaneで機械翻訳を可能にする言語は、アフリカのさまざまな固有言語だけではなく、ナイジェリアのピジン英語や、北アフリカおよび中央アフリカで話されているアラビア語の方言も含んでいます。これらの言語にはヨーロッパの言語とは違い、特定のベンチマークや大きなデータセットが存在していません。そのため記事作成時点では、Masakhaneは国境なき翻訳者団などのグループや言語学者と協力し、言語データセットを作成することから始める予定です。

さまざまなアフリカの言語が機械翻訳可能になれば、アフリカ人に利益をもたらすさまざまなオープンソースプロジェクトに拡張していくことができると2人は考えています。以下の画像は、記事作成時点においてMasakhaneに参加している開発者の人数を、緑色の濃さで表した地図です。記事作成時点で参加している開発者はアフリカ全土で60人ほどだそうで、南アフリカ、ケニア、ナイジェリアの開発者が特に多い模様。各参加者は自らの母国語でデータを収集し、モデルのトレーニングを行うとしています。


ケニアのルヒヤ族出身のエンジニアであるKathleen Siminyu氏は、同じ部族の人々と話す際はルヒヤ語を使っています。ケニアでは学校を初めとする公的な場では英語が用いられることが多いものの、日常生活では部族ごとに違う言語を用いているため、コミュニケーション上のギャップが生じているとSiminyu氏は感じていました。そのため、AI開発者でもあるSiminyu氏はMasakhaneに参加することを決めたとのこと。

Siminyu氏は機械学習を用いてアフリカの言語を翻訳することが、アフリカにおけるAI活用を成長させるきっかけとなり、アフリカの人々がAIを生活に役立てる動きが促進されると考えています。Masakhaneのようなアフリカ大陸全土にまたがるプロジェクトは、アフリカの開発者と研究者のコミュニティを結び付け、持続的で長期的なコラボレーションを実現するために重要だとSiminyu氏は主張しています。

「言語の違いは障壁となっており、言語の壁を排除できれば多くのアフリカ人がデジタル経済に、そして最終的にはAI経済に携わることが可能となります。私は、デジタル社会に参加できていない人々をAI社会に参加させることが、Masakhaneに参加する者の責任だと感じています」と、Siminyu氏は述べました。

by hnijssen

GitHubが2019年に発表したレポートによると、ケニアやナイジェリアなどのアフリカ諸国では、オープンソースプロジェクトの貢献者が大幅に増加していることが示されています。アフリカのテクノロジーおよび開発者エコシステムはシリコンバレーの企業にとっても魅力的であり、2019年にはTwitterのジャック・ドーシーCEOやGitHubのナット・フリードマンCEOが相次いでアフリカを訪問しました。

Masakhaneの参加者らは、アフリカにおける開発者コミュニティは急速に拡大しており、アフリカの言語を対象とした機械翻訳のメリットは大きいと述べています。ナイジェリアのヨルバ語を担当するOlabiyi Samuel氏は、「私たちは問題を解決することができます。専門家を有しており、知識と知能を持っています」と語り、Masakhaneがアフリカの開発者らが世界に貢献する足掛かりになると考えています。複数の(PDFファイル)研究は、母国語での指導が効率的な学習をもたらすと示しており、Masakhaneによって英語の文献がアフリカの諸言語に翻訳されることで、より多くの人材を育成することにつながる可能性もあるとのこと。

リンガラ語を担当するコンゴ民主共和国の開発者Espoir Murhabazi氏は、リンガラ語がほかの言語と違い、1つの単語が「語幹+言語の意味をなす複数の要素」から成り立っていると指摘。Masakhaneで翻訳を目指す各言語は、こうした言語間の構造的な違いもあるなど、技術的に多くの課題があるそうです。それでもMurhabazi氏は、言語の機械翻訳システムが人々の娯楽にも寄与すると期待しています。「ケニアに住んでいた時に行ったナイトクラブやバーでは、踊っている人の全員が歌の意味を理解しているわけではありませんでした」とMurhabazi氏は述べ、翻訳システムによって多くの人々が歌詞の意味を理解して楽しめるようになるかもしれないと述べました。

by 691806

アフリカの人々にさまざまなチャンスを与えるという意義に加えて、開発者らがMasakhaneに参加することのメリットとして挙げられているのが、「アフリカ人によるAIプロジェクトの成功がアフリカのAI研究者に対する制限の緩和につながる可能性がある」という点です。

記事作成時点では、主要なAI関連会議のほとんどがヨーロッパやアジア、北米で開催されており、アフリカの研究者はほかの研究者と交流する機会が限られています。また、たとえ西欧諸国で教育を受けたアフリカ人であっても、政府機関などはアフリカ人AI研究者の受け入れを拒否するケースがあるとのこと。


2019年12月にはカナダのバンクーバーで、AI系の国際カンファレンスであるNeurIPSが開催されますが、アフリカやアジアの研究者はカナダ政府によるビザの発行を拒否されるケースがあると報じられています。こうしたアフリカ人開発者に対する偏見を取り除くためにも、アフリカ人によるAIプロジェクトを成功に導くことは重要な意味を持ちます。

さらに、Masakhaneに参加したアフリカの開発者同士がさまざまな知見を交換し合うことで、お互いの開発に大きな刺激と進展をもたらしているとAbbott氏は指摘。「リソースの少ない言語で活動するコミュニティとの出会いは、私たちの研究の大きな後押しとなっています」と、Abbott氏は述べました。

by World Bank Photo Collection

この記事のタイトルとURLをコピーする

・関連記事
Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開 - GIGAZINE

機械翻訳はWikipediaの翻訳ツールとしていまだに問題があり、Wikipedia自体の信頼性を低下させている - GIGAZINE

Googleがニューラル機械翻訳の弱点を克服すべくAdversarial Examplesを取り入れたモデルを開発 - GIGAZINE

Facebookが機械翻訳の質を劇的に向上させるAI技術を開発 - GIGAZINE

アフリカ人プログラマーが抱える苦悩 - GIGAZINE

アフリカの熱帯地域が自動車2億台分の二酸化炭素を排出していたことが判明 - GIGAZINE

in ソフトウェア, Posted by log1h_ik

You can read the machine translated English article here.