TwitterやFacebookの書き込みから人々の感情やうつ病の危険度を判定する「センチメント分析」とは?
アメリカのバーモント大学の研究チームが、Twitterの投稿を解析して人々の感情を分析する「ヘドノメーター」で2020年のツイートを調べたところ、2020年は人々の感情が2008年以降最悪の年だったことが分かりました。ヘドノメーターのように、SNSなどを通じて人々の感情を数値化することが可能な「センチメント分析」の仕組みについて、フリーランスの科学ジャーナリストであるダナ・マッケンジー氏が分かりやすく解説しています。
How algorithms discern our mood from what we write online
https://www.knowablemagazine.org/article/technology/2020/how-algorithms-discern-our-mood-what-we-write-online
◆センチメント分析で使われている技術
以下は、バーモント大学が公開している2019年8月~2020年9月のヘドノメーターの分析結果で、下の灰色のグラフがツイートの総数を、上の折れ線グラフがヘドノメーターで分析した感情を表しています。赤枠で囲った部分を見ると、新型コロナウイルス感染症が本格的に猛威を振るい始めた2020年3月ごろや、警察官の不適切な拘束により黒人男性が死亡する事件が発生した2020年5月末には、人々の感情が大きく落ち込んでいることが分かります。
マッケンジー氏によると、ヘドノメーターのようなセンチメント分析の基礎的なアプローチは、単語数のカウントだとのこと。その原理は非常に単純で、肯定的な単語の数をカウントして、そこから否定的な単語の数を差し引くというもの。しかし、単純な単語数のカウントには「文脈を無視してしまう」という問題がひそんでいます。
例えば、ある人が「I’m so happy that my iPhone is nothing like my old ugly Droid.(私のiPhoneは、私の昔のひどいAndroid端末とは大違いなので、私は幸せです)」という一文をTwitterに投稿したとします。
人間は単語のつながりが理解できるので、「このツイートの投稿者は幸せ」だということがすぐに分かりますが、単純に単語数をカウントするだけのセンチメント分析では、逆に「投稿者は否定的な感情」という結果になってしまいます。なぜなら、否定的な単語は「nothing(何もない)」「old(古い)」「ugly(ひどい)」と3つもあるのに対し、肯定的な単語は「happy」の1つだけしかないからです。
センチメント分析が抱えていたこの問題に対し、研究者らは機械学習を使って対処しました。機械学習で単語間のパターンを認識させることで、例えば「bank」という単語が「money(お金)」という言葉と一緒なら「bank」は「銀行」という意味で、「river(川)」と一緒なら「bank」は「土手」のことを指しているという具合に、文脈を酌み取ることができるようになります。
AI研究者であるTomas Mikolov氏が2013年に、機械学習を用いた単語埋め込みという手法を開発したことで、この分野の研究はさらに大きく前進しました。単語埋め込みは「分散表現」とも呼ばれ、単語をベクトルという50~300種類もの数字に変換して表現します。これにより、機械学習モデルは高い精度で特定の単語の次に来る単語を予測したり、「money(お金)」と「cash(現金)」といった類義語を認識して文脈を捉えたりすることができるようになったとのことです。
◆センチメント分析のルーツとSNSへの応用
上記のように、コンピュータサイエンスの分野で語られることが多いセンチメント分析ですが、歴史的には心理学の分野に深く根差した研究分野だといえます。1962年に、ハーバード大学の心理学者であるフィリップ・ストーン教授は、最初期のテキスト分析プログラムのGeneral Inquirerを開発しました。これにより、うつ病と診断された患者は「I」や「me」といった単語や、ネガティブな感情を表す言葉、特に死に関連した言葉を多用する傾向があることが確かめられました。これが、センチメント分析のルーツです。
技術の進歩に伴い、センチメント分析はSNSに応用されるようになり、うつ病や自殺の兆候を感知するといった成果を挙げるようになりました。例えば、Facebookは2017年に、自殺をほのめかすような投稿を検知してユーザーに支援団体への連絡先を伝えたり、投稿を専門家や警察に通報するAIを導入しています。
また、Twitterを利用してうつ病のリスクを評価する取り組みも行われています。以下は、うつ病患者と健常者合計200人から提供されたツイートを元に、うつ病のリスクがうつ病の診断前後でどう変わったかを分析したグラフです。赤枠で囲われた、うつ病と診断される200日前の時点を見ると、この時には既にうつ病患者を示す青色のグラフと健常者を示す緑色のグラフとの間にかなりの差が見られることが分かります。
センチメント分析には、SNSの投稿を分析することに対するプライバシーの問題など多くの課題が残されていますが、この技術により自殺の兆候やうつ病のリスクが早期に発見できるようになると期待されています。
◆「気分」の分析も可能に
近年のセンチメント分析は、自殺の衝動などのかなり強い感情だけでなく、漠然とした気分なども数値化することができるようになっています。例えば、2009年~2016年の間にTwitterとFacebookに投稿された書き込み合計35億件以上を分析した2018年の研究では、気温20度までは肯定的な気分の投稿が増えるものの、30度を超すと逆に肯定的な投稿が減ることや、降水量が多い日ほど否定的な気分を訴える投稿が増えていることなどが判明しました。
また、さまざまなジャンルの曲の歌詞を分析した2017年の研究では、赤枠で示された「1960年代のロック」や「宗教音楽」が最も肯定的なトーンの歌詞が多く、「パンク」や「メタル」が最も否定的なトーンの歌詞が多いことも分かっています。
◆センチメント分析の今後
イリノイ大学シカゴ校のセンチメント分析研究者Bing Liu氏によると、前述のTwitterやFacebookといったSNSだけでなく、Microsoft、Google、Amazonなど多くの企業がセンチメント分析をビジネスに応用しているとのこと。例えば、複数のセンチメント分析システムを精査した2018年の(PDFファイル)研究では、当時すでに28のセンチメント分析システムが産学で使用されていることが分かっています。
こうしたセンチメント分析は、主に顧客満足度の測定などに使用されていますが、IBMのSocial Pulseのように、社内のネットワークを監視して従業員が何に不満を持っているかを確認するシステムも登場しています。IBMのSocial Pulseについて、Twitterを用いたヘドノメーターを開発したバーモント大学のクリス・ダンフォース氏は、「私が懸念しているのは、従業員のプライバシーは会社の利益の前ではかすんでしまうだろうということです。これは、倫理的にはかなり疑わしいことだといえます」と話しました。
また、マッケンジー氏はLiu氏の「私たちは何が把握されているのかさえ把握できていません」という言葉を引用した上で、「センチメント分析がより一般的になるにつれて、『倫理』が引き続き問題になる可能性は高いでしょう」と述べて、センチメント分析は今後プライバシーや倫理といった問題を避けては通れないとの見方を示しました。
・関連記事
Twitter上の言葉から人々の幸福を測る「ヘドノメーター」でわかったこととは? - GIGAZINE
機械学習を使った調査で「うつ」病の人がよく使いがちな言葉が判明 - GIGAZINE
取りつかれたように文章を書きまくる「ハイパーグラフィア」がよくわかる実例 - GIGAZINE
ネット上の陰謀論者の正体は変人ではなく「普通の人」だと大規模な分析で判明 - GIGAZINE
2ちゃんねるのテレビ番組実況レスを分析・解析することも可能な「情報環流システム」 in 技研公開2009 - GIGAZINE
生徒の自殺願望を察知して教師や親に知らせるAIシステム「GoGuardian Beacon」 - GIGAZINE
・関連コンテンツ