2026年06月11日 12時31分 AI

「Claude Fable 5」をAIの開発に利用するとこっそり性能が制限されることが判明、セキュリティ対策も厳しすぎて不満が続出

Anthropicは2026年6月9日に高性能AIモデル「Claude Mythos 5」と「Claude Fable 5」をリリースしました。Claude Fable 5はClaude Mythos 5にセキュリティ対策を施したモデルなのですが、「セキュリティ対策が厳しすぎる」「AI開発者による利用が厳しく制限されている」といった不満の声があがっています。

Claude Fable 5 and Claude Mythos 5 \ Anthropic
https://www.anthropic.com/news/claude-fable-5-mythos-5

Claude Fable 5 & Claude Mythos 5 System Card
(PDFファイル)https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Claude Mythos 5とClaude Fable 5はサイバー攻撃能力が高すぎるとして話題になった「Claude Mythos Preview」のアップデート版です。Claude Mythos 5はPreview版と同様に一部の組織を対象に限定公開されており、Claude Fable 5はClaude Mythos 5にセキュリティ対策を施したうえで誰でも使える製品版として公開されています。

ついに「Claude Mythos」の正式版が登場＆利用者制限撤廃版の「Claude Fable」も登場して誰でも使用可能に - GIGAZINE

一般的にAIサービスは「危険な質問には応答しないようにしつつ、誤検知を抑える」ということを意識してセキュリティ対策を施しています。しかし、AnthropicはClaude Fable 5の発表に際して「迅速なモデル展開のために、制限を厳しめに設定している」と明言しており、セッション全体の5％を「危険な質問」と判断するほどの厳しいセキュリティ対策を施したことを発表しています。

以下のグラフは「Claude Opus 4.8」「Claude Mythos Preview」「Claude Mythos 5」「Claude Fable 5」のサイバー攻撃能力を比較したものです。同一性能のClaude Mythos 5では大量の攻撃を実行できたのに対して、Claude Fable 5の攻撃成功率は0％となっており、セキュリティ対策が効果的に機能していることが分かります。

しかし、Claude Fable 5に施されたセキュリティ対策について、誤検知の報告も相次いでいます。例えば、生物医学の専門家であるDerya Unutmaz氏は「Cancer(がん)」と入力しただけでClaude Fable 5での応答が終了してClaude Opus 4.8に切り替わってしまったことを報告しています。

The word “cancer” is flagged as a biosecurity risk by Claude Fable 5! I also tried to code a website on cancer mutations & Fable 5 was immediately removed from my list! @AnthropicAI will probably soon ban me for such dangerous prompts! FYI @karpathy “little trigger happy Fable” pic.twitter.com/WYZrrng29A
— Derya Unutmaz, MD (@DeryaTR_) June 9, 2026

さらに、Unutmaz氏のプロフィールや使用履歴が影響したのか、「Hello」と入力しただけで危険と判断されてしまったことも報告されています。

Enjoy what Boris? I am not even allowed to use Fable 5 with memories on! Apparently the model thinks I am a biosecurity risk, though I had been certified to work in biosecurity level 3 labs! Not a single Anthropic person has tried to reach out to help either! pic.twitter.com/BZinAJv1hO
— Derya Unutmaz, MD (@DeryaTR_) June 10, 2026

また、Claude Mythos 5とClaude Fable 5の仕様を示したシステムカードの13ページには「Claude Mythos 5を用いたAI研究」の制限に関する文面が含まれています。Anthropicはこれまでも「Claudeシリーズを蒸留しようとする試み」を禁止していましたが、新たに「フロンティアLLMの開発者」を対象にしたセーフガードを導入したとのこと。新たなセーフガードでは「事前トレーニングパイプラインの構築」「分散トレーニングインフラストラクチャーの構築」「機械学習アクセラレーターの設計」といった用途への利用が制限されます。また、通常のリクエストで危険と判断された場合は「ユーザーに通知したうえで、Claude Fable 5からClaude Opus 4.8に切り替えて応答を続行する」という処理が実行されますが、フロンティアLLMの開発に関するセーフガードではユーザーへの通知や他モデルへの引き継ぎは行われず「Claude Fable 5の効果を制限する」という処置が実行されます。

Anthropicがどのような基準で「フロンティアLLMの開発者」を識別しているのかは不明。このため、多くのAI研究者から不安の声があがっています。例えば音声合成AI「Irodori-TTS」の開発者であるAratako氏は「普通のML系の研究・開発」に悪影響が及ぶ可能性を懸念しています。

うーんディストピア
何がfrontierと判定されるか分からないけど、書いてある文面だけ見たら普通のML系の研究・開発にも最悪影響してくる可能性があるな https://t.co/x7qPAZCvEY
— Aratako (@Aratako_LM) June 10, 2026

また、AI企業「Reka」の創業者であるMikel Artetxe氏は「(Anthropicの制限は)素晴らしいアイデアです！次はAppleが競合技術の開発を理由にユーザーのMacを再起動したり、Googleがライバルに言及するメールをこっそり編集したり、Teslaが自動運転者を開発する人のハンドルを勝手に操作したりするでしょう。もちろん、すべて安全のためです。世界のOSやメールや自動車を悪意ある者が支配したら極めて危険ですからね！」という皮肉を投稿してAnthropicを強く非難しています。

Brilliant idea! Next up: Apple randomly reboots your Mac if you're building competing tech, Gmail silently edits your email if you mention rival platforms, and Tesla Autopilot swerves if it detects you're working on self-driving cars.

All in the name of safety, of course.… https://t.co/FDkDeDFZ7v
— Mikel Artetxe (@artetxem) June 9, 2026

この記事のタイトルとURLをコピーする