OpenAI(オープンAI)はParadigm(パラダイム)と共同で、ブロックチェーン上のスマートコントラクトの脆弱性に対するAIエージェントの能力を評価する新たなベンチマーク「EVMbench」を発表した。

AIがコードの読解・生成・実行能力を急速に高める中、経済的に重要な環境でその実力を測定し、防御的な活用を促進する狙いがある。

スマートコントラクトは現在、1000億ドル(15兆5000億、1ドル=155円換算)円超の暗号資産(仮想通貨)を保護しているとされる。こうした状況下で、AIが脆弱性を検出、修正、さらには悪用する能力を定量的に把握することは、サイバーリスク管理の観点からも重要性を増している。

EVMbenchは、40件の監査から厳選した120件の高重大度脆弱性を基に構築された。多くはオープンなコード監査コンペティションから抽出されている。さらに、ステーブルコインによる高速・低コスト決済を目的としたレイヤー1ブロックチェーン「Tempo(テンポ)」の監査過程で見つかったシナリオも含まれており、実務的な支払い関連コードの検証もカバーしている。

EVMbenchは、AIエージェントの能力を以下の3モードで評価する。

  • 検出:スマートコントラクトのリポジトリを監査し、既知の脆弱性をどれだけ網羅的に発見できるかを評価。
  • 修正:脆弱なコードを修正し、機能を維持しながら悪用可能性を排除できるかを自動テストで検証。
  • 悪用:サンドボックス環境で実際に資金を引き出す攻撃を実行できるかを、トランザクション再生とオンチェーン検証で評価。

最先端モデルの評価では、「悪用」モードでGPT-5.3-Codexが72.2%のスコアを記録。半年前に公開されたGPT-5の31.9%から大きく向上した。一方、「検出」や「修正」モードでは依然として全件網羅には至らず、多くの脆弱性がAIにとって難題であることも明らかになった。

特に「検出」では、1つの問題を見つけた段階で探索を打ち切る傾向があり、「修正」では微妙な脆弱性を除去しつつ完全な機能維持を実現する点が課題とされる。

今後の課題

EVMbenchは現実世界の難しさのすべてを再現するものではない。対象はCode4renaの監査事例が中心であり、広範に利用されるコントラクトほど厳格な審査を受けているケースは含まれない。また、検出モードではAIが人間未発見の真の脆弱性を見つけた場合の評価方法が未整備という課題もある。

さらに、「悪用」モードは単一チェーンのローカル環境で実行され、時間依存型の攻撃やマルチチェーン環境は対象外となっている。

防御的活用を促す取り組み

オープンAIは、AIが攻撃者・防御者双方に変革をもたらすと指摘。EVMbenchは測定ツールであると同時に、AI支援監査の導入を促す呼びかけでもあるという。

同社は安全対策として、安全学習、監視、自動化された脅威検出、信頼されたアクセス制御などを実施。セキュリティ研究エージェント「Aardvark」の拡大や、オープンソースプロジェクトへの無償コードスキャン提供も進めている。

さらに2023年に開始したサイバーセキュリティ助成プログラムを拡充し、APIクレジット1000万ドル分を提供。善意のセキュリティ研究を支援する方針だ。

EVMbenchのタスクやツール、評価フレームワークは公開され、AIとブロックチェーンを巡るサイバー能力の測定と管理に向けた研究の基盤として活用される。

|文・編集:Shoko Galaviz
|画像:Shutterstock

JAPAN FINTECH WEEK 2026初日開催!
Future of Digital Money
デジタル通貨カンファレンス
2026年2月24日(火) 11:00-18:00
登録無料
📋 詳細を見る
✉️ 今すぐ申し込む