中国のAIラボDeepSeekによる代表的な推論モデル「DeepSeek-R1」は、VectaraのHHEM 2.1ベンチマークによると14.3%の幻覚率(虚偽生成率)を示した。これは、推論機能を持たない前世代の「DeepSeek-V3」の3.9%と比べて、約4倍にのぼる。
この大きな差は、暗号資産業界に難しい課題を突き付ける。急成長するAIエージェントトークンの多くが、推論型LLMに依存し自律的な取引やシグナル、オンチェーンの実行を担うようになっている。
Vectaraは、DeepSeekの2モデルをHHEM 2.1、独自の幻覚評価フレームワークで検証した。さらにGoogleのFACTS方式でもクロスチェックを実施。あらゆるテストで、R1はV3よりも多くの誤った、または根拠のない主張を生成した。
原因は推論の深さだけではなかった。Vectaraのアナリストは、R1が「過剰な手助け」を行う傾向を確認した。つまり、出典テキストに現れない情報まで回答に含める動作である。
こうした追加情報は、それ自体は事実でも幻覚としてカウントされる。この挙動が妥当な回答に本来無関係な文脈を紛れ込ませる要因となっている。
Vectaraはこの検証結果をX上で公表した。
この傾向はDeepSeekに限らない。業界関係者によれば、他ラボの推論訓練型モデルでも同様のトレードオフが見られる。連鎖思考を強化する強化学習は、大胆かつ自信ある生成も促進する傾向。
暗号資産市場では今、Virtuals Protocol(VIRTUAL)やai16z(AI16Z)、aixbt(AIXBT)などを筆頭に、数百種類のAIエージェントトークンが流通している。
このカテゴリーは直近30日間で約39.4%の成長を記録した。Virtuals単体の時価総額は5億7600万ドルを突破している。
こうしたエージェントの多くは、大型言語モデルを各種ツールでラッピングしている。これによりエージェントはSNS投稿、トレード実行、トークンのミント、マーケット解説などが可能だ。
基幹モデルが価格帯や提携、コントラクトアドレスを虚偽生成すると、その影響は直接オンチェーンに及ぶ。
BeInCryptoによるAIXBT分析では、エージェントが416トークンを宣伝し、平均19%のリターンを記録した。ただし同じ仕組みでも、モデルの誤作動時にはフォロワーが失敗リスクを負う。
リスクの大きさは自律性によって左右される。センチメントを要約するだけの読み取り型エージェントと、トレジャリーキーを保有するエージェントでは影響度が異なる。
推論型モデルは、複数のステップにまたがる計画型エージェントに特に好まれる。しかしそこでこそ、Vectaraによる14.3%という幻覚率が最も大きなリスクになる。
思考連鎖の序盤で生じた虚偽事実は、その後の全アクションに連鎖しやすい。
メタのチーフAIサイエンティスト、ヤン・ルクン氏は、自己回帰型LLMは幻覚生成を完全に回避できないと以前から主張してきた。同氏によれば、そもそものアーキテクチャに現実世界への「足場」がない。
連鎖思考に対する強化学習は、数学やコーディングのような狭い領域では問題を覆い隠せる。ただし根本的な要因自体は解消されない。
一方、最先端研究を進める他ラボは見解が異なる。検索拡張や後学習調整、検証モデルによって幻覚率ベンチマークは着実に低下していると指摘する。ただし開発者の現場報告は、リーダーボードのデータを裏付ける内容が多い。
AI研究者xlr8harder氏は、R1のデバッグ経験をXで次のように総括した。
暗号資産エージェントの開発者にとって、実務的な問題は設計思想というよりリスク管理にある。すべてのモデルの出力を検証ステップに通す設計の方が堅実と言える。
金融アクションに関して控えめな小型モデルを活用する設計も、同様にリスク低減につながる。
今後のリーダーボード推移や、R1の後継モデルの動向が、「推論力と正確性」のトレードオフが縮小できるかを占う材料となるだろう。
現時点では、14.3%と3.9%という幻覚率の差は実務上きわめて重要な検討点だ。実用に足るAIエージェントトークンと、単なる期待に終わるトークンの分岐線となる可能性がある。

