ネットサービス

世界100以上の言語のあらゆる報道やSNSを収集・分析している「GDELTプロジェクト」、AIで25年分のテレビニュース翻訳などの実験も公開


GDELTプロジェクト」は世界各国の100以上の言語で発信される放送・新聞・ウェブニュースを常に収集し、アーカイブとして記録しています。地球上のあらゆる人々、組織、場所、テーマ、ニュースソース、イベントを単一の巨大なネットワークに結び付けることで、世界中で何が起こっているのか、その背景に何があるのか、誰が関わっているのか、そして人々がそれについてどのように感じているのかを毎日記録してデータベースとして提供しているほか、分析した実験結果などを公開しています。

The GDELT Project
https://www.gdeltproject.org/


データサイエンティストのカレフ・リータル氏と政治学者のフィリップ・シュロート氏が創設したGDELTプロジェクトは、1979年から現在までのあらゆるニュースやSNSなどのデータを収集しています。GDELTは「Global Database of Events, Language and Tone」の略で、ニュースをもとに世界でどのような出来事が起きているのかを大規模に分析することを目的としています。社会の出来事やそれに対する人々の反応を定量的なデータとしてコード化することで、世界の動向を分析するための基盤を提供しています。

GDELTプロジェクトでは何兆ものデータポイントを合計した膨大なデータセットが公開されており、研究者やジャーナリストが世界の政治・経済・社会の動向を分析するための基盤データとして利用されています。データセットには「世界中の物理的な活動を300以上のカテゴリにコード化したもの」「それらのイベントとその相互関係の根底にある人々、場所、組織、何百万ものテーマ、何千もの感情を記録したもの」「世界のニュース画像の視覚的な物語をコード化したもの」という3つの主要なデータストリームがあり、これらは15分ごとに更新されます。


さらに、世界中のニュースの「翻訳」もGDELTプロジェクトの特徴の1つです。GDELTプロジェクトは世界最大規模のリアルタイムニュース翻訳システムの「GDELTトランスリンガルプラットフォーム」を活用しており、GDELTが監視している65言語のグローバルニュース全てがリアルタイムで翻訳され、パイプライン全体で処理されています。

公式ブログでは、GDELTプロジェクトの膨大なデータセットに基づいたさまざまな分析・洞察が発信されています。

The GDELT Project
https://blog.gdeltproject.org/



例えば2026年2月3日にGDELTプロジェクトは、GoogleのAI・Gemini 3 Flashを使って世界中のニュースを分析し、政府や企業のリーダー交代に関する発表を自動的に抽出して知識グラフとして整理する実験を公開しました。ニュース記事から人事異動の情報をまとめることができるだけではなく、その背景にある政治・経済的な意味を推論し、世界の権力構造の変化を分析するレポートをAIが生成するという取り組みです。

また、GDELTプロジェクトはアメリカの2026年度国防授権法(NDAA)という約3100ページ・約51万語に及ぶ巨大な法案をGemini 3 Proに一度に読み込ませ、法案全体を単一のインフォグラフィックに変換するデモを行いました。さらに分析と実験を重ねた結果、法案全体のテーマ分析や特定分野の解説、関連法案の整理、さらには議員が想定しそうな質問の作成まで行わせる実験も公開しています。PDFをテキスト化して、行番号の削除やテキストのクリーンアップ作業を行うことで、文書全体を約81万トークンに収めてAIが法案を単一の文書として分析できるようにしたとのことです。


2026年2月11日のブログでは、Geminiを使って25年分の約300万本のテレビ放送ニュースを翻訳した結果を報告しています。ブログによると、「620億文字以上」「合計60億秒の放送時間」におよぶ翻訳は、Gemini 2.5 Flash Non-Thinkingを使用して1090億の入出力トークンが消費されたとのこと。翻訳にかかった費用は7万4634ドル(約1200万円)で、テキスト量を考えると従来は数百万ドル(数億円)かかったと考えられるため、大規模な翻訳のコストが大幅に下がったとブログでは報告しています。


GDELTプロジェクトのこうした取り組みは、AIによって膨大なニュースや政府文書を横断的に分析できる可能性を示しており、これまで研究者やジャーナリストが扱えなかった規模の情報を分析できるようになる可能性があります。

この記事のタイトルとURLをコピーする

・関連記事
Googleは絶版本を含む約2500万冊もの書籍をスキャンしたデータベースを持っているが誰にも読まれず眠っている - GIGAZINE

325タイトル分のゲームUIをまとめたデータベース「Game UI Database」 - GIGAZINE

Googleが都市型洪水の予測マップを公開、GoogleマップとGeminiを用いた災害予測データセット構築手法「Groundsource」を活用 - GIGAZINE

Googleが「Gemini 3.1 Flash Lite」を発表、高速で安価なコスパ重視AIモデル - GIGAZINE

in AI,   ネットサービス, Posted by log1e_dh

You can read the machine translated English article The 'GDELT Project,' which collects and ….