ハッカーや犯罪者が集うダークウェブのデータでトレーニングしたAI「DarkBERT」
ChatGPTやMicrosoft Bing、Google BardなどのチャットAIはインターネット上のデータで訓練されています。こうしたAIモデルはトレーニングデータのジャンルを絞ることで「金融専門」「軍事専門」などのある分野に特化させることも可能なのですが、韓国の研究者チームが新たにクラッカーやサイバー犯罪者が集うダークウェブのデータだけで訓練したダークウェブ特化モデル「DarkBERT」を開発したことを明らかにしました。
DarkBERT: A Language Model for the Dark Side of the Internet
https://doi.org/10.48550/arXiv.2305.08596
New DarkBert AI was trained using dark web data from hackers and cybercriminals | Tom's Guide
https://www.tomsguide.com/news/new-darkbert-ai-was-trained-using-dark-web-data-from-hackers-and-cybercriminals
Dark Web ChatGPT Unleashed: Meet DarkBERT | Tom's Hardware
https://www.tomshardware.com/news/dark-web-chatgpt-unleashed-meet-darkbert
韓国科学技術院のジン・ヨンジン氏らは、ダークウェブへのアクセスによく使われるTorネットワークを介してダークウェブを16日間にわたってクロールし、ダークウェブのデータベースを作成しました。ヨンジン氏らは構築したデータをMetaの自然言語処理アーキテクチャ「RoBERTa」で処理し、ダークウェブ専門のAI「DarkBERT」を開発したとのこと。
ダークウェブのデータでトレーニングしたことで、DarkBERTはダークウェブで使われる独自の用語と高度に難読化されたメッセージを分析し、そこから有用な情報を抽出することができるとされています。ヨンジン氏らはDarkBERTを一般に公開する予定はないそうですが、研究目的での使用リクエストを受け付けているとのことです。
DarkBERTは限定的なデータで訓練されたにもかかわらず、他の大規模言語モデルに匹敵する実力を誇っているとされています。DarkBERTは新しいAIモデルですが、ベースとなったのは2019年にFacebookの研究者らが開発した「RoBERTa」です。RoBERTaは2018年にGoogleが公開した自然言語処理モデル「BERT」を元に作成されたもので、自然言語処理モデルのトレーニング段階における性能を改良したものだと説明されていました。
しかし、RoBERTaを参考にしたヨンジン氏らは、RoBERTaがリリース当初は訓練不足であったと指摘。今回の研究を明らかにしたことで「RoBERTaはもっと多くのことができる」ということを示しました。
テクノロジー系メディアのTom's Guideは「DarkBERTは、ある特定の分野で訓練され、より専門的になったAIモデルの未来を象徴しているのかもしれません。AIの人気を考えると、今後このような方法で開発された同様のAIモデルが登場しても不思議はないでしょう」と記しました。
・関連記事
検閲なしのチャットAI「FreedomGPT」はChatGPTのような安全フィルターがなく倫理観皆無で「ヒトラー称賛」「対ホームレス発砲提案」などやりたい放題 - GIGAZINE
「ChatGPTを利用したスパムボットの被害が深刻」とRedditのモデレーターが恐るべき実態を語る - GIGAZINE
インターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性 - GIGAZINE
90%の精度で1週間後の犯罪発生確率を予測するというモデルが登場 - GIGAZINE
・関連コンテンツ