チャットGPTを開発するオープンAIは19日、スマートコントラクトの安全性を評価するベンチマーク「EVMbench」を発表した。投資企業パラダイムと共同開発した同ベンチマークは、AIエージェントがスマートコントラクトの脆弱性に対してどの程度対応できるのかを評価する仕組みとなっている。
EVMbenchは過去の監査から精査された120件の重大な脆弱性をもとに構築されており、AIエージェントが脆弱性を検出できるか、修正できるか、あるいは悪用するかという3つの観点で評価する仕組みを採用。評価はライブのブロックチェーンではなく、隔離された検証環境で実施される。
オープンAIは開発背景として、AIのコード読解・生成・実行能力の進化を挙げた。スマートコントラクトは1,000億ドル(約15兆円)超の資産を保護しており、経済的影響の大きい領域でAI能力を測定する必要性が高まっている。AIが攻撃・防御の双方で影響を強める中、客観的評価基準の整備が求められていた。
公表された評価結果では、最新モデルが攻撃シナリオで顕著な性能向上を示した。特に「Exploit(悪用)モード」での評価スコアでは、「GPT-5.3-Codex」が72.2%を記録。約6ヶ月前に公開された「GPT-5」の31.9%を大きく上回った点を強調している。
その一方で、脆弱性の網羅的な発見や、機能を維持しながらの安全な修正は依然として難しく、実務レベルでの完全自動化には課題が残ることも共有された。
また、同社はサイバーセキュリティが攻撃と防御の両方に利用され得る「デュアルユース分野」であると強調。AIの防御的活用を促進するため、安全対策の強化や監視体制の拡充を進めるとしている。なお、セキュリティ研究支援の一環として、同社は1,000万ドル(約15億円)分のAPIクレジット提供も拡大する方針だ。
EVMbenchの公開は、AI時代におけるブロックチェーンセキュリティの新たな基準となる可能性がある。AIの能力を客観的に測定し、リスクを可視化する試みとして、今後の研究や実運用への影響が注目されそうだ。
関連:AI「Claude」生成コードでDeFiに2.7億円損失──検証不備が原因
関連:ファントムウォレット、MCP対応発表──AIエージェント経由で取引実行へ
※価格は執筆時点でのレート換算(1ドル=155.1円)

