ソフトウェア

AI VTuber200人分のキャラクター設計に使えるデータセット「AItuber-Personas-Japan」が公開中


AI VTuberのキャラクターを設計するために作られた日本語の合成データセット「AItuber-Personas-Japan」がHugging Face上で公開されています。データは単なる設定メモではなく、そのままAI VTuber開発や学習データ整備に使える形を目指したデータになっています。

DataPilot/AItuber-Personas-Japan · Datasets at Hugging Face
https://huggingface.co/datasets/DataPilot/AItuber-Personas-Japan

AI VTuber用合成データとそれを支える合成データパイプライン【SDG-LOOM】|Holy_fox
https://note.com/holy_fox/n/n57928b993ca7

2Dあるいは3Dのアバターの姿でインターネットを舞台に活躍するバーチャルYouTuberは「VTuber」という呼び名でかなり一般的な知名度も高くなっています。そして、AI技術が進歩した今日に至っては、完全にAIがVTuberとして活躍する「AI VTuber」も登場しています。AItuber-Personas-Japanには200人分のAI VTuberのキャラクターデータが収録されています。1人分のキャラクターデータを構成するのは、concept・system_prompt・themaの3点。


「concept」はMarkdown形式の詳細なキャラクター設計書で、名前や愛称、一人称二人称といった基本プロフィールだけでなく、性格キーワード、価値観、弱点、好きなものや苦手なもの、口癖、感情表現、笑い方、過去のエピソード、人間関係、配信動機、悩みや目標、さらに配色や衣装、表情、話し方の特徴まで含めて、そのキャラの全体像を作ります。

「system_prompt」は、LLMにそのまま貼り付けて使える実装用プロンプトで、キャラクター定義に加え、応答スタイル、良い会話例と悪い会話例、禁止事項や緊急時対応まで含んでいます。そして、「thema」はそのキャラクターらしさを反映した雑談配信テーマのリスト10件で、ゲームや外部ツールに頼らず雑談だけで成立するよう設計されています。

AItuber-Personas-Japanが対象にしているのは、視聴者とリアルタイムで会話しながら配信する「AI VTuber」です。単なる質問応答ではなく、キャラクターとしての一貫性や配信者としての面白さ、ライブ配信らしい反応の速さや空気感が求められるため、汎用LLMにそのまま話させるだけでは不十分。そのためにもまずは「どんなキャラクターなのか」をしっかり設計し、その上で会話データへつなげる土台が必要というわけです。


AItuber-Personas-Japanは、各キャラクターを「ジャンル」「性格」「年齢」「性別表現」「ビジュアルモチーフ」「話し方」という6つの方向性パラメータから組み立てます。ジャンルは雑談・学術・技術・料理・音楽など幅広く、性格も天然ボケやツンデレ、知的クール、中二病など多様です。話し方もギャル語、関西弁風、お嬢様言葉、古風な口調など複数あり、これらを組み合わせたシードを基に、YAMLベースの合成データ生成フレームワークであるSDG-LOOMとMoonshot AIのLLMであるKimi K2.5で構成される「aituber_persona.yaml」というパイプラインがキャラクターのデータを生成します。

aituber_persona.yamlは簡単なシードデータからKimi K2.5でキャラクター一式を生成した後、Pythonブロックで必須キーの有無や文字数、themaの件数や構造を検証します。品質基準を満たさなかった場合は、SDG-LOOMの条件分岐機能を使って再生成が走る仕組みになっており、生成を1回で終わらせず、検証と再生成まで含めてパイプライン化しているのが特徴です。つまり、AItuber-Personas-Japanは単に設定を羅列したものではなく、品質管理を通した出力結果のデータ群として整備されているというわけです。

なお、AItuber-Personas-JapanはOpen Data Commons Attribution License(ODC-By)で公開されています。

この記事のタイトルとURLをコピーする

・関連記事
日本発のAI Vtuberをつくる「Shizuku AI」がa16zをリード投資家として日本のスタートアップとしては初となる資金調達に成功 - GIGAZINE

AIによってバーチャルアバターや顔出ししないナレーションの作成が容易になってVTuberやTikTokクリエイターの新たな波が押し寄せている - GIGAZINE

オープンソースでアニメ動画を自動生成できるAIツール「AniSora」を中国・bilibiliの開発チームが発表 - GIGAZINE

VTuberやそのコミュニティに対して贈られる「The Vtuber Awards」が創設、海外で急激に高まるVTuber人気と技術の向上 - GIGAZINE

in AI,   ソフトウェア, Posted by log1i_yk

You can read the machine translated English article The 'AItuber-Personas-Japan' dataset, wh….