ソフトウェア

Microsoftが「人間以上の精度で画像に説明文を追加するAI」をWordやOutlookなどの改善に使用


Microsoftが、多くのケースで人間よりも正確な説明を画像に追加できる新しい「キャプション生成人工知能(AI)モデル」を構築したことを公式ブログ上で報告しています。

What’s that? Microsoft’s latest breakthrough, now in Azure AI, describes images as well as people do - The AI Blog
https://blogs.microsoft.com/ai/azure-image-captioning/

Microsoft’s new image-captioning AI will help accessibility in Word, Outlook, and beyond - The Verge
https://www.theverge.com/2020/10/14/21514405/image-captioning-seeing-ai-microsoft-algorithm-word-powerpoint-outlook

Microsoftでテクニカルフェロー兼CTOを務めるXuedong Huang氏は、キャプション生成ツールについて「画像にキャプションをつけるシステムは、幅広いサービスを可能にするコアコンピュータービジョン機能のひとつとなります」と説明しています。

Microsoftが新しく構築したキャプション生成AIモデルは、Azure AIサービスの一部であるAzure Cognitive Servicesのコンピュータービジョンオファリングを介して使用できるようになります。また、開発者はこの機能を使用することで、独自のサービスのアクセシビリティを向上させることも可能。キャプション生成AIモデルは既にMicrosoftが開発する視覚障碍者向けのカメラアプリ「Seeing AI」に組み込まれており、2020年後半にはWindows/macOS版のMicrosoft WordおよびOutlook、Windows/macOS/ウェブ版のPowerPointにも組み込まれる予定です。

Seeing AI に日本語版が新登場


Microsoftのキャプション生成AIモデルは、検索エンジン上で表示される画像からPowerPoint上に埋め込まれた写真に至るまで、あらゆる画像に対してキャプションを追加することができます。MicrosoftでAIプラットフォームグループのソフトウェアエンジニアリングマネージャーを務めるSaqib Shaikh氏は、「画像にキャプションを追加する機能を使ってウェブページやドキュメントに埋め込まれた写真の説明を生成することは、目の見えない人や視力の弱い人にとって特に重要です」と語りました。

Shaikh氏が率いるチームはSeeing AIに、キャプション生成AIモデルを組み込む作業を行ったそうです。Seeing AIではカメラを通して映し出したもののキャプションを生成しており、これにより目の見えない人が目の前にあるものを把握する手助けをしています。Shaikh氏は「理想的には、書類やウェブ、ソーシャルメディア上のあらゆる画像にキャプションがついているべきです。これにより、目の不自由な人があらゆる情報にアクセスできるようになり、周りと当たり前のように会話を繰り広げることができるようになります。しかし、残念ながら人々はそうはしていません。そのため、足りない画像についての説明を行うための方法として、画像のキャプションを提供するアプリがいくつか存在します」と語り、Seeing AIのような画像にキャプションをつけるアプリケーションの重要性を主張しています。


Microsoft研究所で主任研究マネージャーを務めるLijuan Wang氏は、画像キャプションはコンピュータービジョン分野における中心的な課題であり、AIが画像内の要素を正しく理解して説明する必要があると説明しており、「画像の中で何が起こっているのかを理解する必要があり、オブジェクトとアクションの関係を知る必要があり、それを自然言語の文章として要約して説明する必要もあります」とも語っています。

また、Microsoftが作成したキャプション生成AIモデルは、画像キャプション用のベンチマークであるnocapsで、人間と同等以上のスコアをたたき出しています。なお、nocapsではAIモデルがトレーニングに使用したデータセットには含まれていない画像に、「どれだけ正確なキャプションをつけられるか」でスコアを測定します。キャプション生成AIモデルでは、単語タグとペアになった画像の豊富なデータセットを使用することでAIモデルを事前にトレーニングし、単語タグと特定のオブジェクトのマッピングを強化しています。

Microsoftの取った「単語タグと特定のオブジェクトのマッピングを強化する」という手法について、Wang氏は「例えば、ネコの写真とネコという文字が印刷された本を用いて子どもにネコについて教える行為と似ています」と説明しています。


あらかじめ単語ごとの学習を進めたAIモデルは、次にキャプションつきの画像のデータセットを用いてトレーニングを行うことで、キャプションの精度を向上させていきます。これにより、Microsoftのキャプション生成AIは新しい画像に対しても自然な語彙を活用して正確なキャプションを生成できるとのこと。

以下のムービーでは、実際にMicrosoftが作成したキャプション生成AIモデルがどのようなキャプションを生成したかの事例がまとめられています。

Microsoft AI breakthrough in automatic image captioning - YouTube


以下の都市の風景写真に対して、従来のキャプション生成AIモデルは「市街地の風景」と、新しいAIモデルは「市街地を走る電車」とキャプションをつけました。


以下の写真では、旧AIモデルが「楼上の時計」と間違ったキャプションをつけたのに対して、新しいAIモデルは「建物の上にある彫像」と正しく説明しています。


アメフトの選手が勝利の瞬間をお祝いする写真には、旧AIモデルが「野球選手の集団が芝生の上に立っている」、新AIモデルが「アメフト選手の集団が祝っている」と説明。


ネコの写真では、旧AIモデルが「ネコのアップ写真」とザックリとした説明しかできていなかったところ、新AIモデルは「グレーの猫が目を閉じている」とより正確に写真に説明を加えています。


また、業界で広く使用されている別のベンチマークを使用すると、Microsoftの新しいキャプション生成AIモデルは2015年以降にMicrosoft製品で使用されてきた画像キャプションモデルよりも2倍も優れているという結果が出たそうです。

この記事のタイトルとURLをコピーする

・関連記事
自動的に画像を分析して言葉で説明するMicrosoftの画像認知機能を体験できる「CaptionBot」 - GIGAZINE

MicrosoftのOfficeツールにAIが画像を自動で認識して説明文を作成する新機能を追加 - GIGAZINE

Googleが画像の説明文章を自動生成する技術を開発 - GIGAZINE

Microsoftがテキストから本物と見間違うレベルの架空のイメージを自動生成する新AI技術「AttnGAN」を開発 - GIGAZINE

in ソフトウェア,   動画, Posted by logu_ii

You can read the machine translated English article here.