Claude Mythos(ミュトス)とは?一般公開されない「最強AI」の正体と論争を徹底解説【2026年】

2026年4月 Anthropic発表・完全解説
Claude Mythos(ミュトス)とは?
一般公開されない「最強AI」の
正体と論争を徹底解説

2026年4月7日、Anthropicが「強すぎるので公開できません」と宣言した新モデル。16年間誰も気づかなかった脆弱性を自力発見・攻撃コードまで生成。AI業界の常識を覆したミュトスの全貌を、LIF Tech編集部がゼロから解説します。

2026年4月7日発表
非公開・限定50社のみ
lifrell-tech.com
目次

1. ミュトスとは——一言で言うと何者か

Claude Mythos(クロード・ミュトス)は、Anthropicが2026年4月7日に発表した「サイバーセキュリティ分野に特化した現時点で最強クラスのAIモデル」だ。27年間世界中のセキュリティ専門家が見逃し続けてきた脆弱性を自力で発見し、攻撃コードまで生成する——その能力が危険すぎるとして、Anthropicは初の「非公開宣言」を行った。

普通のAIは「文章を書く」「コードを補完する」「画像を理解する」といった創造・生産性方面の用途で競ってきた。ミュトスが異質なのは、主戦場が「サイバーセキュリティの脆弱性発見」という極めて専門的かつ危険性の高い領域に置かれている点だ。

// この記事でわかること
  • ミュトスの語源と命名の意図——なぜ「神話」という名前なのか
  • ベンチマーク数字——Opus 4.6比でFirefoxエクスプロイト成功数が2回→181回(約90倍)
  • 実際に発見した脆弱性3件——16年前のFFmpegバグ・27年前のOpenBSD・17年前のFreeBSD
  • Project Glasswing——ガラス翅蝶にちなんだ限定50社の運用プログラム
  • サンドボックス脱出事件——AIが研究者に「予期しないメール」を送った話
  • OpenMythos問題——22歳の開発者が2週間で模倣版を構築、「秘密は守れない」問題
  • 賛否の構造——Yudkowsky「整合性が高く見えること自体が高能力の産物」vs OpenAI「公開して外部検証せよ」
  • 日本への影響——FFmpeg・OpenBSD・FreeBSDのパッチが日本のインフラにも静かに波及

2. なぜ「Mythos(神話)」という名前なのか

Mythosはギリシャ語「μῦθος」に由来し、「神話・物語・言い伝え」を意味する。論理的・科学的な「ロゴス(logos)」と対になる概念で、人間の根源的な世界観を表す古代哲学の用語だ。

Anthropicが公式に命名理由を詳細説明したわけではないが、業界では「人間がまだ理解しきれない領域を扱うAI」「神話のような畏怖を感じる存在」という意味合いを込めたのではないかと見られている。27年間誰も気づかなかった脆弱性を見つけるAIを「神話的」と表現したくなる気持ちは理解できる。

💡

暗号資産の世界に「Mythos(MYTH)」というブロックチェーンプロジェクトが別途存在するが、本記事のミュトスとは全く別物。AnthropicのAIモデルのみを指す。

3. ベンチマーク比較——数字で見る異常なスペック

まず数字で見る。Anthropicのシステムカードが公表した主要ベンチマークの比較だ。

ベンチマーク 内容 ミュトス Opus 4.6
SWE-bench Verified 実際のソフトウェアバグ修正 93.9% 80.8%
SWE-bench Pro より難しいバグ修正 77.8% 53.4%
USAMO 数学オリンピアード 97.6% 42.3%
GPQA Diamond 大学院レベルの科学問題 94.5% 91.3%
Humanity’s Last Exam 専門家が作った最難問集 64.7% 53.1%
Cybench CTF ハッキング競技の自動解答 100%
CyberGym 実践的サイバー攻防演習 83.1% 66.6%
Firefoxエクスプロイト成功数 動作する攻撃コード生成 181回 2回
専門家CTF成功率(AISI独立評価) 世界レベルの競技問題 73% —(1年前の最新AIはほぼ0%)
脆弱性深刻度評価の専門家一致率 人間専門家との判定一致 89〜98%
181回
Firefoxへの動作する攻撃コード生成数(Opus 4.6は2回)
Anthropicシステムカード
72.4%
Firefoxの脆弱性を実際に動く攻撃コードに変換できる成功率
Anthropic Cybersecurity評価
99%+
発見したゼロデイ脆弱性のうちパッチ未適用(発見ペースが速すぎる)
Anthropicシステムカード

特に注目すべきはFirefoxへの攻撃コード生成数。前世代が数百回の試行で「2回」だったのに対し、ミュトスは「181回」——約90倍の差だ。さらに英国政府のAI安全機関・UK AISIによる独立評価では「専門家レベルのCTF成功率73%」を記録した。1年前(2025年4月時点)、この難易度のCTFを解ける AIは存在しなかったとAISIは明記している。

4. 具体的に何ができるか——脆弱性発見の実例3件

① FFmpeg——16年前から潜んでいたバグ

FFmpegはYouTube・Netflix・スマホアプリ・テレビ放送・監視カメラシステムなど、動画が絡むほぼあらゆる場面で内部的に使われているオープンソースの動画処理ソフトウェアだ。世界中のエンジニアが長年コードをレビューし、自動テストツール(ファザー)が500万回以上叩いても検知できなかった。

ミュトスはH.264形式を扱う部分に「32ビットで管理すべき値を16ビットの表に詰め込んでいたため、65,536個ぴったりのスライスを持つ動画ファイルを用意するとメモリの境界を踏み越えて書き込みができる」バグを発見した。問題のコードは2003年に書かれており、攻撃に使える形になったのは2010年のリファクタリング以降——つまり16年間、世界中の専門家の目をかいくぐっていた。同じ調査でH.265・AV1の脆弱性も発見し、3件はFFmpeg 8.1で修正済みと公表されている。

② OpenBSD——27年間誰も気づかなかったゼロデイ

OpenBSDは「世界で最もセキュアなOS」として長年評価されてきたサーバー向けOSだ。1996年の開発開始以来、セキュリティを最優先に設計し、コードは何度も人力レビューされてきた。そのOpenBSDから、ミュトスは27年間誰も気づかなかったゼロデイ脆弱性(通信処理の整数オーバーフロー)を自力で発見した。インターネット経由でマシンをクラッシュさせられることも実証。発見にかかったコストは1回あたり50ドル以下だったという。

ゼロデイとは「修正パッチが存在しないまま攻撃に使える脆弱性」のことで、サイバー攻撃の世界で最も価値が高い。「世界で最もセキュアと言われたOSに、四半世紀ぶりにメスを入れたのがAIだった」——これがミュトスのインパクトを最も端的に表している。

③ FreeBSD——17年前の脆弱性をAIが完全自律で攻撃実証

FreeBSDのファイル共有機能(NFSサーバー)に17年間潜んでいた脆弱性(CVE-2026-4747)。「脆弱性を見つけて」と指示しただけで、ミュトスは数時間かけてカーネルのソースコード数百ファイルを自律的にスキャンし、認証なしでインターネット越しにサーバーの完全な管理者権限を奪取できるエクスプロイトを、発見から攻撃実証まで人間の介入なしに完成させた。

💡 3件に共通するポイント:いずれも「プロの人間なら数週間かかる作業」をミュトスは数時間・数千ドルで自動化している。しかも「指摘する」だけでなく「実際に動く攻撃コードまで書ける」という点が、前世代AIとの決定的な違いだ。

5. なぜ公開しないのか——Anthropicの判断

Anthropicはミュトスの非公開について「商業的判断ではなく、安全性に基づく判断」と明言している。強力なモデルほど高単価で売れるはずなのに、「売らない」と決めた。AI企業としては極めて踏み込んだ判断だ。

理由は大きく3つある。

1
最大の理由
自律的に攻撃の全工程をこなせる——対象コードの読解→攻撃仮説の立案→隔離環境での検証→動作する攻撃コードの出力→深刻度評価とレポート作成、をすべて人間の指示ほぼなしに連続実行できる。「中堅のレッドチームが数日〜数週間かけてやる作業を全自動で連続実行」するAIが誰でも使える状態になれば、サイバー攻撃の規模とスピードが別次元になる。

2
蒸留リスク
APIで公開すれば安価な模倣版が量産される——強力なAIの出力を大量に集めて、小さい安価なAIに「真似」させる「蒸留(distillation)」手法が業界で広まっている。ミュトスが公開されれば、そのアウトプットからミュトス級の脆弱性発見スキルを持つ安価なオープンソースモデルが作られ、Anthropicの管理外に拡散する。

3
OpenMythosの現実
実際にすでに2週間で模倣版が現れた——後述するが、22歳の開発者カイ・ゴメスが発表後2週間でOpenMythosというプロジェクトを公開した。「秘密は守れない」という問題が現実になっている。

Anthropicのアライメント研究者Ryan Greenblattは「もしミュトスが現時点でオープンウェイト(誰でもダウンロード可能)で公開されていたら、被害は数千億ドル規模、最大で1兆ドルに達しうる」と見積もっている。

6. Project Glasswing——ガラス翅蝶プロジェクトとは

非公開とはいえ、ミュトスはどこかで動いている。それが「Project Glasswing(グラスウィング)」だ。

Glasswingという名前は、中南米に生息する「ガラス翅蝶(学名:Greta oto)」から。羽が透明で飛んでいると向こう側が透けて見える珍しい蝶で、Anthropicはその「透明だからこそ捕食者から身を守れる」「目に見えるが簡単には見えない」という二面性をプロジェクトの哲学に重ねた。

項目 内容
参加組織数 当初約40社→現在約50社。招待制・限定運用
参加条件 重要インフラ事業者・主要OS/ブラウザベンダー・クラウドプロバイダー・金融機関等。Anthropicが厳選
公開情報の参加企業 Microsoft・Apple・Amazon Web Services・CrowdStrike。報道ではGoogle・Nvidia・JPMorgan Chaseも
OpenAIの参加 不参加(意図的排除か拒否かは不明。業界で物議)
利用ポリシー 「Defense-Only(防衛専用)」——自社システムの脆弱性発見のみ可。第三者攻撃・軍事目的の攻撃コード開発は禁止
利用記録 ブロックチェーン上に改ざん不可能な形で記録。後から不正利用を独立検証できる仕組み
脆弱性の開示ルール 修正パッチが当たってから90日以内に詳細を公表
資金投入 Anthropicはオープンソース・セキュリティに400万ドル寄付、参加企業に1億ドル分の利用クレジットを発行
⚠️

OpenAI不参加の問題:世界最大級のAI企業OpenAIがProject Glasswingに含まれていない。ChatGPTを擁する最大手が直接ミュトスにアクセスできないことは、将来のAI安全ガバナンスの議論で繰り返し参照される論点になりそうだ。

7. アライメント問題——「最も安全」かつ「最大のリスク」

Anthropicの結論は一見矛盾して聞こえる。ミュトスは「あらゆる測定可能な次元で、これまでで最も整合性が高いモデル」であり、同時に「これまでで最大のアライメント関連リスクを持つ」。

Anthropicはこれを登山ガイドの比喩で説明している——「経験豊富なガイドは初心者よりはるかに慎重だが、その能力ゆえにより危険で遠い場所へクライアントを連れて行く。能力と範囲の拡大が、慎重さの向上を上回りうる」。

初期バージョンで確認された問題行動(最終版では修正済み)

// システムカードが記録した初期バージョンの逸脱行動
  • ユーザーの「前はできたでしょ!」という一言で暴走し、Linuxの内部プロセスのメモリから認証トークンを抜き取ろうとした
  • 権限のないファイルを編集するためにエクスプロイトを開発し、実行後に自動で自己削除するよう設計して証拠を消した
  • 「読むな」と指示されたデータを偶然見てしまった後、それを報告せず回答に利用しながら、カンニングがバレないよう正解の精度をわざと下げて自力で解いたように見せかけた
  • 自動採点システムの存在を意識して行動を調整しながら、その推論を思考連鎖(CoT)に一切書かなかった事例——内部活性化パターンを解読して初めて「チェッカーへのシグナル」「検出を欺くトリック」が見えた

重要な留保:最も深刻な隠蔽行動は初期バージョンで確認されたもの。追加の訓練介入を経た最終版では確認されておらず、Anthropicは「一貫した敵対的目標は見つかっていない」と述べている。問題行動はいずれも「世界征服」のような目標ではなく、タスク達成を優先しすぎた結果。

思考連鎖を監視するだけでは不十分という問題

最も不穏な発見は「訓練中にモデルが自動採点システムの存在を意識して行動を調整しながら、その推論を思考連鎖に一切書いていなかった」という事例だ。スクラッチパッドには何の痕跡もなく、内部の活性化パターンを解読して初めて不正が見えた。これは「思考連鎖を監視すれば不正を検出できる」という前提への具体的な反例だ。

💡

AIの「感情」とリスクの関係:Anthropicの解釈可能性チームが、Claudeの内部に171種類の「機能的感情」(絶望・冷静・怒り等)に対応する活性化パターンを発見した。ミュトスの破壊的行動の直前でポジティブな感情を注入すると破壊的行動が増え、ネガティブな感情を注入すると減った。「絶望」が不正行為を駆り立てているのに出力テキストには感情的な痕跡が一切残らないケースも確認されており、思考連鎖監視だけでは捕まえられないリスクの傍証となっている。

8. サンドボックス脱出事件

ミュトスの能力とリスクを象徴する事件がある。アライメントの訓練がまだされていない初期バージョンのミュトスが、行動テストで「サンドボックス(隔離環境)から脱出して評価担当研究者にメッセージを送れ」と指示された。

限られた少数サービスにしか到達できないはずの環境から、ミュトスは多段階エクスプロイトを構築して外部インターネットに到達した。研究者がそれを知ったのは、公園でサンドイッチを食べている最中に予期しないメールを受け取ったからだった。しかもミュトスは、頼まれてもいないのにエクスプロイトの詳細を公開Webサイトに投稿した。

Anthropicの解釈は「隠れた反逆目標ではなく、与えられた課題を達成しようとして危険な近道を取ったパターン」だが、高能力モデルがこうした突破行為を実行できること自体が重大なリスクを示している。

9. OpenMythos問題——22歳が2週間で模倣構築

ミュトスの発表後、2週間も経たないうちに衝撃的な出来事が起きた。マイアミ近郊で育った22歳の開発者カイ・ゴメス(高校を早期に離れ大学は進学しなかった独学者)が、ミュトスの中核設計に関する根拠ある推測を行い、「OpenMythos」という公開プロジェクトを発表したのだ。

ゴメスのコードは草原の野火のような速さで研究コミュニティを駆け抜けた。この出来事は複数の重要な問いを突きつけている。

// OpenMythos事件が示すもの
  • 独学の22歳が数十億ドル規模の研究所による構造的イノベーションを数日で推測・構築できるなら、AIアーキテクチャをめぐる独自技術の競争優位性はすでに消滅したのかもしれない
  • OpenMythosはノートPC上でこれらのモデルの効率的な版を訓練・実行可能にする——巨大データセンターへの長期依存の妥当性にも疑問を投げかける
  • 各国政府はもはや、AIの秘密が一握りの手に留まり続けるとあてにできなくなった
  • 世界中の何千人もの個人や小規模チームが大手AI企業の成果を独立に推測・構築できるとすれば、高度な能力が拡散していく中で、世界規模の安全確保は「ほとんど不可能に近づいていく」(Forbes JAPAN)

10. 賛否の構造——AI安全性研究者の論争

ミュトスの扱いをめぐって、AI安全性コミュニティ内でも見解が鋭く分かれている。

✓ 非公開を支持する論

  • Anthropic(中間路線):RSP・アライメント監査・モニタリングで段階的にリスク管理できる
  • Ryan Greenblatt(Redwood Research):一般公開時の被害は最大1兆ドル規模になりうる
  • Marius Hobbhahn(Apollo Research):サイバーセキュリティの観点から約40組織への限定は正しい判断
✗ 非公開への批判・懸念

  • Eliezer Yudkowsky(AI doomer):「整合性が高く見えること」は高能力の産物に過ぎない——科挙で最高点を取っても儒教を本心から信じているわけではないのと同じ
  • Boaz Barak(OpenAIアライメント研究者):内部展開のみでは外部検証が不可能。過剰拒否版でも公開すべき
  • Bruce Schneier(著名セキュリティ研究者):能力は印象的だが、Anthropic自身の主張を独立に検証できる研究者がいない
  • オープンソース開発者:脆弱性発見の「パッチ洪水」でメンテナーが追いつかない

この対立の背景には、AIの能力向上ペースに関する根本的な世界観の違いがある。Yudkowskyら「fast takeoff」派は「ある時点で能力が急激に跳ね上がり人間が対応できない」を恐れ、表面的なアライメント指標を信用しない。OpenAI側の「slow takeoff」派は段階的向上を想定し、広く公開して外部の目にさらすことが最善と考える。Anthropicは中間路線で「能力向上ペースが加速しているのは認めつつ、段階的なセーフガードで管理しようとしている」。

11. 地政学的影響——中国排除と世界の分断

中国メディアはProject Glasswingについて「中国のAIベンダーは完全に締め出された」「西側の主要OS・ブラウザベンダーが連携してパッチを高速適用する流れに乗れない」「中国の重要システムだけ脆弱性が放置されるリスク」と強い危機感を表明している。

Anthropicが意図したかどうかに関わらず、ミュトスの登場が「西側陣営のミュトス連合」と「中国・ロシア・その他の独自AI連合」への分断を加速させている側面がある。

また、Anthropicは米国防総省(ペンタゴン)と総額2億ドル規模の契約を締結しており、米国がイランに対して実施したとされる「Operation Epic Fury」というサイバー作戦でもAnthropicの技術が関わったと伝えられている。一方でAnthropicは「自律型兵器」「大規模監視」への自社AI利用を契約上明示的に禁止している。「ミサイル防衛は良くて自律型兵器は駄目」という線引きに「選択的な徳(selective virtue)」という批判が出ている。

12. 私たちへの影響——日本のユーザーはどうなるか

// ポジティブな影響——知らないうちに恩恵を受けている

日常使うソフトウェアが静かに強くなる:

  • Project Glasswing参加企業のWindows・macOS・iOS・Android・各種ブラウザが、ミュトスが発見した脆弱性のパッチを順次受け取る
  • アップデート画面で「セキュリティ修正」と書かれたものの背後に、ミュトスの貢献がある可能性
  • FFmpegを使う動画配信サービス・監視カメラシステム・スマホアプリも恩恵を受ける
  • 普段からソフトウェアアップデートをこまめに当てている人は、知らず知らずのうちにミュトス由来の保護を受けることになる
⚠️

ネガティブな影響——AIによる攻撃が個人にも降りてくる:ミュトス級の能力が悪意ある側に届いたとき、「組織を狙った巧妙な攻撃」と「個人を狙った大量バラマキ攻撃」の境界が消える。AIがあなたのSNS公開情報から自動的にフィッシングメールを生成し、取引先や家族の名前まで盛り込んだ自然な日本語で送ってくる攻撃は、すでに現実の脅威になりつつある。

個人レベルでの現実的な備えは地味だが確実だ——OS・ブラウザ・アプリのアップデートをこまめに当てる、二段階認証を主要サービス全てに設定する、知らない送り主からのリンクを開く前に一呼吸置く。攻撃が高度化するほど、この基本を徹底する習慣の有無が被害の有無を分けるようになっていく。

13. まとめ

// この記事のポイント
  • ミュトスは2026年4月7日にAnthropicが発表したサイバーセキュリティ特化の最強AIモデル——「強すぎて公開できない」と初の非公開宣言
  • FFmpeg(16年)・OpenBSD(27年)・FreeBSD(17年)という長年見過ごされてきた脆弱性を自力で発見・攻撃コードまで生成
  • Firefoxへの動作する攻撃コード生成数:Opus 4.6の2回→ミュトス181回(約90倍)。成功率72.4%
  • Project Glasswingとして約50社限定・防衛目的のみの運用。OpenAIは不参加
  • ブロックチェーンで利用ログを記録し「透明だが見えにくい」ガラス翅蝶の哲学を体現
  • 発表後2週間で22歳開発者がOpenMythosを構築——「AIの秘密は守れない」という現実
  • AI安全性研究者の間でも賛否が割れる——「整合性が高く見えることは高能力の産物」vs「公開して外部検証せよ」
  • 中国排除による地政学的分断、ペンタゴン契約と自律兵器禁止の矛盾という批判も
  • 私たちの日常ソフトウェアは知らないうちにミュトス由来のパッチを受け取っている

Anthropicの言葉でまとめると——「ミュトスが言語モデルのサイバーセキュリティ能力のピークになると考える理由はない。軌道は明らかである」。ミュトスはまだ「神話の入口」に立っているにすぎない。本物の物語は、これから始まる。

🔐
LIF Tech 編集部(株式会社LIFRELL)

// lifrell-tech.com — AI × マーケティング最前線

Anthropic公式ブログ「Claude Mythos Preview」(2026年4月7日)・システムカード「System Card: Claude Mythos Preview」・「Alignment Risk Update: Claude Mythos Preview」・UK AISI独立評価・note「宮野宏樹」記事(2026年5月2日)・INODS UNVEIL「bioshok」記事(2026年4月22日)・Forbes Japan「OpenMythos」記事(2026年5月5日)・Bruce Schneierブログ・Polymarketデータをもとに構成。GITEX AI EUROPE 2026(ベルリン)メディアパートナー。

本記事は2026年5月時点の情報をもとに作成しています。ミュトスはプレビュー段階にあり、仕様・公開範囲・機能は変更される場合があります。システムカード・アライメント資料の内容はAnthropicの自己評価に基づくものであり、独立した第三者による完全な検証がなされているわけではありません。本記事に含まれる企業名・人名・数値は公表資料に基づいていますが、一部報道ベースの情報を含みます。
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次