サイエンス

Googleが今後28日間の新型コロナ感染者数・死亡者数などを示す「COVID-19 感染予測 (日本版)」はどういう仕組みと根拠で最終的な予測を出しているのか?


Googleが新たに公開した新型コロナ感染者数・死亡者数予測ツール「COVID-19 感染予測(日本版)」について、日本の厚生労働省は「前提条件によって結果は大きく異なる」という理由から、どのような前提条件を採用しているのかに関して問い合わせを行っています。一方、このCOVID-19 感染予測(日本版)の大本となった仕組みと根拠については、論文が公開されています。

Interpretable Sequence Learning forCOVID-19 Forecasting
(PDFファイル)https://storage.googleapis.com/covid-external/COVID-19ForecastWhitePaper.pdf


2020年11月17日、Googleが日本における新型コロナウイルス感染症(COVID-19)の死亡者数・陽性者数・入院・療養等患者数を予測するツール「COVID-19 感染予測(日本版)」を公開しました。

日本の新型コロナ感染数が今後28日間でどうなるかが見える「COVID-19 感染予測(日本版)」をGoogleが公開、28日間で予測される死亡者数・陽性者数・入院・療養等患者数も掲載 - GIGAZINE


このCOVID-19 感染予測(日本版)の根本となったアルゴリズムについて、その中核を成しているのが、感染症流行に関する数理モデルである「SEIR」です。SEIRは「感染症に対して免疫を持たない者(Susceptible)」「感染症が潜伏期間中の者(Exposed)」「発症者(Infectious)」「感染症から回復し免疫を獲得した者(Recovered)」の四要素を変数として感染症の流行状況を分析するというものですが、今回のCOVID-19感染予測においては、「Undocumented infected(未確認感染者)」「Hospital resource usage(病院の資源利用率)」の2要素も分析に追加されています。

そんなSEIRの4要素と新たに追加された「未確認感染者」「病院の資源利用率」などの諸要素の相互影響を考慮したモデルを図示したものが以下。変数としては、「未確認感染者/確認済感染者の接触回数」「再感染率」「逆潜伏期間」「診断率」「病院内のCOVID-19感染者の比率」「集中治療室(ICU)使用率」「ICUの人工呼吸器使用率」「未確認感染者/確認済感染者の回復率」「未確認感染者/確認済感染者の死亡率」が採用されています。


このモデルに関して、GoogleはCOVID-19は無症状感染者が特に多い病気である点を挙げて、「未確認感染者は診断を受けるか自力で回復するまで感染を広げるものとする」「感染者の入院状況については、単純入院・ICU入り・要人工呼吸器の3段階に細分化するものとする」「回復者がどの程度の免疫を持つかは科学的コンセンサスが得られていないものの、再感染の事例報告があがっているため、低い確率で再感染が発生するものとする」「COVID-19による死者は全て発見されるものとする」「母集団全体は不変なものであるとし、出生とCOVID-19以外の死者は無視するものとする」といった仮定条件を明記しています。

またGoogleはこうした諸変数を代入するそれぞれの関数は不変ではなく、「時間によって変動する」という概念を採用。既存の観測結果から関数自体の変化もマッピング可能として、機械学習によって各時点における関数を動的に算出したとのこと。


COVID-19の流行速度に関しては、人口・健康・環境・病院資源・人口統計・経済統計などの各種指標が影響を与えることが判明していることから、Googleはアメリカ全土で得られた統計をGround truth data(正確性検証要データ)として、共変量に対しては前方推定と後方推定を適用し、静的共変量に対しては中央値推定を適用し、TensorFlowアルゴリズムによる機械学習を実施。テストデータへの適合率の最小化を目指したベイズ最適化に基づくハイパーパラメータチューニングを400回、微調整反復を300回繰り返しました。

こうして得られた予測結果について、GoogleはIHME(保健指標評価研究所)やLANL(ロスアラモス国立研究所)などの他所の研究機関が開発している予測モデルとMAE(平均絶対誤差)などの指標を比べるという比較も実施。自社の開発した予測モデルがさまざまな指標において優れている点を明示化しています。


Googleは今回の予測モデルについて、根拠となる症例数がさまざまな原因に起因して完全に正確ではない可能性があるという点や、症例数が急激に変動すると変動値の捕捉に失敗する場合が見られる点、公共政策・社会経済力学・公衆衛生などの政策立案時に必要とされることがある過小予測と過大予測が上手く機能しなかった点、人種・民族的な流行率の違いを前提から排除したした点、過剰適合問題など、さまざまな課題が残されていると記しています。

この記事のタイトルとURLをコピーする

・関連記事
日本の新型コロナ感染数が今後28日間でどうなるかが見える「COVID-19 感染予測(日本版)」をGoogleが公開、28日間で予測される死亡者数・陽性者数・入院・療養等患者数も掲載 - GIGAZINE

インターネットの検索結果から「新型コロナウイルスが次に流行する地域」を予測できるという研究結果 - GIGAZINE

Googleマップで新型コロナウイルスの流行状況がチェック可能に - GIGAZINE

新型コロナウイルスの第2波をGoogleやTwitterのリアルタイムデータから予測するアルゴリズムを研究者が開発 - GIGAZINE

in ネットサービス,   サイエンス, Posted by log1k_iy

You can read the machine translated English article here.