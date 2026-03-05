2026年03月05日 12時05分 AI

FLUXのBlack Forest Labsが高効率＆高精度で画像・動画・音声を生成するマルチモーダルAIの学習手法「Self-Flow」を発表



画像生成AIのFLUXシリーズで知られるBlack Forest Labsが、生成AIをトレーニングするための新たなアプローチ「Self-Supervised Flow Matching(Self-Flow)」を発表しました。Self-Flowは生成モデルを自己教師あり学習で効率的にトレーニングするための仕組みで、学習効率の大幅な向上や画像生成時のテキスト描画の向上などを実現しています。



Black Forest Labs - Frontier AI Lab

https://bfl.ai/research/self-flow





We present a research preview of Self-Flow: a scalable approach for training multi-modal generative models.



Multi-modal generation requires end-to-end learning across modalities: image, video, audio, text - without being limited by external models for representation learning.… pic.twitter.com/btkY8dnpfi — Black Forest Labs (@bfl_ml) 2026年3月4日



Black Forest Labs' new Self-Flow technique makes training multimodal AI models 2.8x more efficient | VentureBeat

https://venturebeat.com/technology/black-forest-labs-new-self-flow-technique-makes-training-multimodal-ai



Self-Flowは、画像・動画・音声を生成するAIモデルにおいて、表現と生成を統合的にモデル化することで、外部モデルや教師データを用いることなく一貫して既存の生成AI学習手法を上回る性能を発揮する自己教師ありフローマッチングフレームワークです。以下は画像の中の特徴を合わせる従来手法であるREPA(青)とSelf-Flow(オレンジ)を比較したグラフで、横軸がトレーニングステップ数、縦軸が生成AIによる生成物がいかに本物らしいかの評価を表しています。生成物がいかに本物らしいかの評価は「0に近い(低い)ほど本物に近い」ため、同じステップ数だとSelf-Flowの方がより本物らしい画像・動画・音声を生成可能で、同レベルのクオリティを生成するために必要なステップ数はSelf-Flowの方が大きく抑えられることがグラフから読み取れます。





以下は、生成AIに「暗い雰囲気の森の背景に、金色とローズゴールドの文字で『From the Black Forest with love』と書かれたエレガントなタイポグラフィ」と指示を入力した結果で、左が従来の学習手法を用いたAI、右がSelf-Flowにより学習したAIの生成結果。Self-Flowは人間の顔や手といった構造的一貫性のほか、テキストレンダリングの精度において大幅な改善をもたらすとのこと。





また、ビデオサンプルでは人間の動作や表情、動物の動き、液体の流れ方などを、従来のトレーニング手法より大幅にトレーニングステップを抑えながらより自然な生成を実現していることが示されています。





Self-Flowの特徴の1つである自己教師あり学習は、AIが外部からトレーニングデータのラベルを与えられなくても、データ内の構造や関係性を自ら学び取ることができる手法です。Stable DiffusionやFLUXなどの生成AIは「拡散モデル」で、主にノイズ除去を目的とした学習を行うため、意味的な理解を十分に内部表現として育てにくいと指摘されることがありました。自己教師あり学習を用いることで、学習効率の向上やコストの削減が期待されます。



またSelf-Flowでは、同じデータに異なるノイズレベルを与えた「教師(EMAモデル)」と「生徒」を用意し、生徒がよりクリーンな内部表現を予測する「自己蒸留構造」を採用しています。このアプローチにより、モデルは内部の意味理解を深めるように強制され、効果的に生成方法を学びながら世界を認識する方法を学習します。





Self-Flowを導入した結果、モダリティ全体で学習がより早く安定状態に到達するまでの効率性が最大2.8倍まで上昇したとのこと。また、動画における時間的一貫性の向上や、テキスト描画およびタイポグラフィの鮮明化といった効果も報告されています。



Black Forest Labsは今後の課題として、世界モデルについて言及しています。生成AIのためのトレーニング手法であるSelf-Flowは、AIが単に見た目をマネするだけではなく、物理法則や物体の関係性を「知覚的根拠」をもって理解するための道筋を提供できる可能性があります。実際に、Self-Flowの6億7500万パラメータバージョンを微調整することで、複雑な複数ステップのタスクにおいて大幅に高い成功率を達成したことが報告されています。





Self-Flowの技術的詳細はGitHubで公開されています。記事作成時点でSelf-Flowは研究プレビュー段階ですが、今後商用APIやオープンウェイト製品に組み込まれる可能性が高いと考えられています。



GitHub - black-forest-labs/Self-Flow: Code and website for Self-Flow: Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis · GitHub

https://github.com/black-forest-labs/Self-Flow/

