話題の中国AI企業「DeepSeek」の創設者兼CEOであるLiang Wenfengへのインタビューからイノベーションの秘訣を探る
低コストで高パフォーマンスなAIモデルを発表したことで、App Storeの無料アプリランキングで1位を獲得したり、AIチップメーカーの株価が急落したりと、AI業界で話題の中国企業が「DeepSeek」です。そんなDeepSeekを、同社の創設者であり、CEOでもある梁文峰(Liang Wenfeng)氏へのインタビューをベースにChinaTalkが分析しています。
Deepseek: The Quiet Giant Leading China’s AI Race
https://www.chinatalk.media/p/deepseek-ceo-interview-with-chinas
DeepSeekは中国トップ4の定量的ヘッジファンドであるHigh-Flyerから出資を受けており、最終評価額は80億ドル(約1兆2500億円)です。DeepSeekはHigh-Flyerから全額出資されているため、資金調達の予定はなく、商用アプリケーションではなく基礎技術の構築に注力しており、すべてのAIモデルをオープンソースとしてリリースすることを約束しています。
DeepSeekは中国企業であるため、アメリカによる中国へのAIチップの輸出制限の影響をもろに受けているはずです。DeepSeekは「NVIDIAのA100を1万個保有している」と公表していますが、業界アナリストのDylan Patel氏は「DeepSeekはHigh-Flyerのコンピューティングクラスターにアクセスできるため、5万以上のHopper GPUを所有していると言える」と指摘しています。「5万以上のHopper GPU」は、NVIDIAのA100・1万個と比較すると桁違いに高いコンピューティングパワーとなります。
Deepseek has over 50k Hopper GPUs to be clear.
— Dylan Patel (@dylan522p) November 20, 2024
People need to stop acting like they only have that 10k A100 cluster.
They are omega cracked on ML research and infra management but they aren't doing it with that many fewer GPUs https://t.co/eaFzCoBrmU
DeepSeekの野望は「汎用人工知能(AGI)を構築する」というものです。DeepSeekは自社のミッションステートメントとして「好奇心を持ってAGIの謎を解明する」とだけ記しており、ゲームチェンジャーとなり得るアーキテクチャーやアルゴリズムの研究に焦点を絞っています。
DeepSeekがAI業界で注目を集め始めたのは、オープンソースのDeepSeek V2をリリースしてからであるとChinaTalkは指摘。DeepSeek V2は前例のない価格性能比を発揮しており、100万トークン当たりの推論コストは1人民元(約21円)と非常に安価です。なお、100万トークン当たりの推論コストはMetaのLlama3 70Bの約7分の1、OpenAIのGPT-4 Turboの約70分の1に相当します。DeepSeek V2の登場により、中国のテクノロジー企業であるByteDance、Tencent、Baidu、Alibabaなどはこぞって値下げを実施しており、中国では大規模なAIモデルの価格競争が激化しているそうです。それでもDeepSeekは他企業とは異なり、利益を上げることに成功しています。
このような成功を収めている理由のひとつとして挙げられているのが、DeepSeekが発表したメモリ使用量を一般的に使用されているMHAアーキテクチャから5~13%削減することができるという「MLAアーキテクチャ」です。さらに、独自のDeepSeekMoESparse構造により計算コストが最小限に抑えられ、最終的には全体のコスト削減にもつながっているとChinaTalkは指摘。
DeepSeek V2の料金設定について、梁CEOは「(DeepSeek V2の)価格設定に周囲がこれほど敏感だとは思ってもいませんでした。我々は自分たちのベースで物事を進め、そこから価格を設定しました。補助金を出したり法外な利益を上げたりすることはしないというのが我々の原則です。我々の設定した価格は、コストを少し上回る程度で、わずかな利益しか得られません」「他社からユーザーを奪うことが私たちの主な目的ではありません。私たちが価格を下げたのは、次世代モデルのアーキテクチャを模索する中でコストが削減されたためです。また、APIとAIは誰もがアクセスでき、手頃な価格で利用できるべきだと考えているからです」と語っています。
シリコンバレーがけん引するAI業界の中で、中国のAI企業が革新的なモデルを開発・発表しているということは「非常に珍しい出来事です」とChinaTalkは指摘しています。AI業界では、DeepSeekが優れたパフォーマンスを発揮している理由について、「アーキテクチャレベルでのイノベーションによるものであり、中国発のAIモデルや、世界規模のオープンソースAIモデルとしては非常に珍しい」と評されています。
アメリカ人は「0を1にする」イノベーションが得意ですが、中国人は「1を10」にするようなイノベーションに優れているとされています。そのため、中国では「大型モデルの技術は必ず収束するので、それに従う方が賢い」という考えのもと、既存のモデルをアップグレードするような取り組みが主流となっています。しかし、DeepSeekは「AIモデルのアーキテクチャをイノベーションする」という非常に困難でコストがかかる取り組みに挑戦し、これを成功させることでAI業界に新風を巻き起こしています。このような方針を取っているのは、中国の大手スタートアップの中でもDeepSeekのみだそうです。
中国のAI企業のほとんどがMetaのLlamaをそのままコピーして使用しているのに対して、DeepSeekはモデルのアーキテクチャ構築から始めています。この理由について、梁CEOは「アプリケーションを作ることが目的であれば、Llamaのアーキテクチャを使って製品を素早く展開するのが合理的です。しかし、私たちの目標はAGIの開発です。そのため、限られたリソースでより強力なモデルを実現するために、新しいモデルアーキテクチャについて研究する必要があります。これは、より大きなモデルにスケールアップするために必要な基礎研究領域の1つです。また、モデルアーキテクチャ以外にも、データ構築やモデルをより人間らしくするなど、他の領域でも広範な研究を行っており、これらはすべてリリースしたモデルに反映されています。加えて、Llamaのアーキテクチャはトレーニング効率と推論コストの点で、国際的な最先端モデルよりも2世代ほど遅れていると推定されています」と語りました。
さらに、DeepSeekが研究と探索に重点を置く理由について、「今最も重要なのは世界的なイノベーションの波に乗ることだと信じています。長年、中国企業は他社が技術革新を行うことに慣れており、私たちはアプリケーションの収益化に注力してきました。しかし、これは必然ではありません。この波の中で、私たちの出発点は、手っ取り早く利益を上げる機会を利用することではなく、むしろ技術の最先端に到達し、エコシステム全体の発展を推進することだと感じました」「経済が発展するにつれ、中国はただ乗りするのではなく、徐々に貢献者になるべきだと私たちは考えています。過去30年以上にわたるITブームの中で、私たちは基本的に本当の技術革新に参加していませんでした。ムーアの法則が突然降ってきて、より優れたハードウェアとソフトウェアが登場するのを18か月間待つことに慣れています」と語り、イノベーションを生み出す側に回る重要性を説いています。
SemiAnalysisの主任アナリストはDeepSeek V2の論文を「今年最高の論文になるかもしれない」と評価しており、OpenAIの元従業員であるAndrew Carr氏も「驚くべき知恵に満ちている」と太鼓判を押しています。実際、Carr氏は自身の開発しているAIモデルでDeepSeek V2のトレーニング設定を採用しているそうです。さらに、Anthropicの共同創設者であるジャック・クラーク氏は、DeepSeekについて「計り知れない天才たちのグループを雇った」と語っており、中国製のAIモデルについて今後もイノベーションを起こし続けるだけの地力を持っていると評価しました。
シリコンバレーでDeepSeek V2が高く評価されていることについて、梁CEOは「アメリカでは日々数多くのイノベーションが起きていますが、これはごく普通のことです。(DeepSeek V2は)中国企業がイノベーションの貢献者としてアメリカに参入したため、彼らは驚きを持って迎えることになったと思います」と言及し、中国企業がこれまでイノベーションを生み出してこなかったと指摘。
さらに、「イノベーションのコストは決して低くはなく、無差別な資金の借り入れも、中国の以前の状況に関係していました。しかし、中国の経済規模であれ、ByteDanceやテンセントのような大企業であれ、世界基準で見ればどれも低くはありません。イノベーションにおいて我々に欠けているのは、間違いなく資本ではなく、効果的なイノベーションのために高密度の人材を組織化する方法に関する自信と知識の欠如です」と述べ、中国におけるイノベーションの欠如は「資金不足」ではなく、「効果的に優秀な人材を集め、組織化するノウハウの欠如」にあると指摘しました。
この他、イノベーションを生み出してもオープンソースでリリースしてしまえばすぐに他社にコピーされてしまい、優位性を失ってしまうのではないかという指摘に対して、梁CEOは「破壊的なテクノロジーに直面したとき、クローズドソースによって作られた堀は一時的なものに過ぎません。OpenAIのクローズドソースアプローチでさえ、他社の追い上げを防ぐことはできませんでした。そのため、私たちはチームに価値を定着させています。同僚はこのプロセスを通じて成長し、ノウハウを蓄積し、イノベーションを可能にする組織と文化を形成します。優秀な人材によるチームこそが私たちの堀なのです」と語っています。
なお、梁CEOは「中国のAIが永遠に追随する立場にいてはいけないというのが私たちの見解です。中国のAIとアメリカのAIの間には1、2年の差があるとよく言われますが、本当の差は独創性と模倣性の違いです。これが変わらなければ、中国はいつまでも追随者でしかありません」「NVIDIAのリーダーシップは1社の努力によるものではなく、西側諸国の技術コミュニティと業界全体が協力した結果です。彼らは次世代の技術トレンドを見据え、ロードマップも持っています。中国のAI開発にはこのようなエコシステムが必要です。国内のチップ開発の多くは技術コミュニティの支援が不足しており、間接的な情報しか得られないため苦戦しています。中国には、技術の最前線に立つ人材が必然的に必要です」と語り、中国のAI企業がイノベーションを生み出す側に変わっていくことの必要性を強調しました。
・関連記事
DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL-E 3を超える性能と自負 - GIGAZINE
中国のAI開発企業「DeepSeek」が急速に台頭してテクノロジー業界で話題に、App Storeの無料アプリランキングでも1位を獲得 - GIGAZINE
高性能AIモデルの開発が中国に集中していることで「政治的な検閲が起きる可能性が非常に高い」とAI開発プラットフォームのCEOが言及 - GIGAZINE
中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by logu_ii
You can read the machine translated English article An interview with Liang Wenfeng, founder….