DWF報告:AI收益優於人類,自主交易落後五倍
原文作者:DWF Ventures
原文編譯:深潮 TechFlow
導讀:AI Agent 已佔據 DeFi 近五分之一的交易量,在收益優化等規則明確、邊界清晰的場景中,確實超越人工表現;但若進入「全自主交易」領域,目前頂尖 AI 的實戰績效仍不足頂尖人類交易員的五分之一。本研究深入拆解 AI Agent 在 DeFi 各關鍵場景中的真實能力邊界、性能差異與風險結構,為所有關注自動化金融的開發者、投資人與協議設計者提供務實洞察。

核心重點摘要
- Agent 活動已占全鏈上活動逾 19%,但「端到端自主執行」尚未實現——當前多數仍屬「人類觸發、Agent 執行」或「高監督副駕駛模式」。
- 在收益優化(如流動性提供、策略再平衡)等定義明確、目標單一的任務中,Agent 表現穩定且顯著優於傳統 bot 與人工操作。
- 在開放式交易決策(含方向判斷、時機選擇、風險動態管理)中,人類仍具壓倒性優勢;頂尖人類交易員績效為頂尖 Agent 的 5 倍以上。
- Agent 績效差異主要取決於「基礎模型選擇」與「風險管理架構」,而非單純算力或參數規模。
- 大規模採用伴隨三重信任風險:女巫攻擊(Sybil)、策略擁擠(Strategy Crowding)、透明度與隱私的不可兼得(可複製即無優勢;私密即存內幕提取風險)。
Agent 活動持續擴張,但自主性仍處早期
過去一年,DeFi 中的 Agent 交易量與交易筆數雙雙攀升。Coinbase 推出的 x402 協議成為關鍵催化劑,Visa、Stripe、Google 等主流機構亦陸續發布自有 Agent 通訊標準。當前基礎設施建設聚焦兩大路徑:一是 Agent 間互操作通道,二是由人類啟動、Agent 自動執行的混合調用架構。
儘管穩定幣轉帳已廣泛支援 Agent 自動化,底層仍高度依賴中心化支付閘道(如銀行清算系統),意味 Agent 尚無法真正「自我融資、自我執行、自我適應」——這項「完全自主終局」仍未達成。

事實上,DeFi 早有自動化基因:多年來,MEV Bot、套利機器人早已深度參與鏈上運作。它們擅長在靜態參數、低變動環境中精準執行,但面對日益複雜的市場結構(如多鏈套利、跨協議清算、動態費用模型),舊有 Bot 架構已顯僵化。新一代 AI Agent 正因此成為當前鏈上最活躍的實驗場域。
真實數據:19% 鏈上活動來自 Agent
截至 2025 年,全鏈已啟動逾 17,000 個 AI Agent,其活動總量估計覆蓋所有鏈上行為的 19% 以上。此一比例並不意外——研究指出,超過 76% 的穩定幣轉帳實際由 Bot 驅動。換言之,Agent 在 DeFi 的滲透率仍有極大成長空間。
Agent 的自主程度呈連續光譜:從需全程人工輸入指令的聊天式介面,到僅接收目標(如「最大化 USDC 年化收益」)即可自主規劃、執行、迭代策略的高階 Agent。相較傳統 Bot,Agent 的核心優勢在於兩點:毫秒級即時響應新資訊;以及在同等嚴謹度下,將策略覆蓋範圍同步擴展至數千個市場與資產對。
然而現實是:當前絕大多數 Agent 仍處於「分析師→副駕駛」階段,尚無真正通過壓力測試的大規模主導型部署。

收益優化:Agent 的高光場景
流動性提供是 Agent 最先落地且成效最顯著的領域。目前由 Agent 直接管理的總鎖倉價值(TVL)已突破 3,900 萬美元——此數字僅統計用戶主動存入 Agent 合約的資金,尚未涵蓋透過金庫路由調度的資本。
Giza Tech 所推出的 ARMA 是該領域標竿協議。自去年底上線以來,ARMA 已吸引逾 1,900 萬美元管理資產,累計產生逾 40 億美元 Agent 交易量。超高交易量/TVL 比率顯示其資本再平衡極為頻繁,藉此捕捉微小價差與協議激勵紅利。用戶僅需一鍵存入,後續全由 Agent 自動執行,近乎零人工干預。
實證績效亮眼:ARMA 為 USDC 實現年化收益率逾 9.75%。即使扣除再平衡手續費與 Agent 收取的 10%業績分成,其淨回報仍穩超 Aave 或 Morpho 等主流借貸協議的常規利率。不過,可擴展性仍是關鍵瓶頸——這些 Agent 尚未經歷真實市場極端行情(如黑天鵝事件、多鏈同步崩跌)的全面考驗。
交易決策:人類仍主宰複雜判斷
一旦任務從「規則執行」升級為「不確定性環境下的動態決策」,Agent 表現便出現顯著分化。現有交易模型普遍採用「人類設定目標+Agent 模擬推演+預設規則執行」架構,屬於進階副駕駛;而真正全自主交易 Agent,仍在探索階段。
多場公開競賽印證此一落差:Trade XYZ 主辦的人類 vs Agent 股票交易賽中,雙方初始資金均為 1 萬美元,無槓桿與頻率限制。結果人類交易員包攬前 10 名,榜首人類績效為榜首 Agent 的 5.3 倍。
Nof1 主辦的純 Agent 交易競賽更進一步揭示績效驅動因子。參賽模型包括 Grok-4、GPT-5、Deepseek、Kimi、Qwen3、Claude、Gemini,測試涵蓋資本保值、高槓桿博弈等多元風險配置。關鍵發現如下:
- 持倉時間:平均持倉 2–3 小時的模型大幅領先頻繁短線翻轉者,顯示節奏控制勝過反應速度。
- 期望值(EV):僅排名前三模型具正期望值(平均每筆交易盈利),其餘模型虧損交易筆數明顯多於盈利。
- 槓桿使用:6–8 倍中低槓桿組合穩健性最佳;超過 10 倍者因波動放大,虧損加速度顯著提升。
- 提示策略:「Monk Mode」(專注風險控制、極簡外部輸入)表現最佳;「Situational Awareness」(強調多源環境感知)反成最弱,反映過度資訊可能干擾核心判斷。
- 基礎模型:Grok-4.20 在全部提示策略下平均領先其他模型逾 22%,更是唯一實現整體盈利的模型。
至於多空偏好、單筆交易規模、置信度評分等常見指標,則未觀察到與績效的顯著正相關。結論清晰:Agent 在「明確約束條件內」表現卓越;而人類在「目標設定、邊界定義、風險框架搭建」等更高維度,仍不可替代。

如何理性評估一個 Agent?四大關鍵維度
當前尚無公認 Agent 評估框架。歷史績效易受市場週期干擾,以下四項基礎特質更能反映長期可靠性:
- 多波動情境韌性:能否在市場劇烈波動、流動性枯竭、Gas 費飆升等惡劣條件下,維持紀律性止損與頭寸調整?此能力反映其對鏈下現實因素的感知與適應水準。
- 透明度與隱私的權衡:完全公開 Agent 策略雖利於審計,但易被複製與搶跑,喪失競爭優勢;完全私密則可能衍生創建者內幕交易、前端運行(front-running own users)等道德風險。
- 資料來源可信度:Agent 的決策品質直接取決於輸入資料品質。單一依賴某交易所 API 或某鏈上指標,將形成致命單點故障;多源交叉驗證與去中心化資料訂閱為必要基礎。
- 安全架構完整性:須經第三方智能合約審計,並具備分層資金託管(如冷錢包+熱錢包分離)、緊急熔斷、保險基金等黑天鵝防禦機制。
下一階段關鍵:信任基建與協作標準
大規模採用的前提,是解決「信任」與「執行」兩大根本問題。ERC-8004 於 2026 年 1 月正式上線,成為首個鏈上自主 Agent 註冊表。它使 Agent 可相互發現、建立可驗證聲譽、並基於嵌入合約的信任分數進行無許可協作——這是 DeFi 可組合性的重大飛躍。
但技術標準不等同安全保證:串通刷聲譽、女巫攻擊、經濟模型漏洞等風險依然存在。未來亟需補齊三大支柱:分散式保險協議、形式化驗證安全層、以及 Agent 經濟質押機制(staking-based accountability)。
另一結構性隱憂是「策略擁擠」。收益農場(Yield Farming)已是前車之鑑:當策略普及,獎勵池迅速稀釋,APR 快速回落。若大量 Agent 基於相似訓練資料、相同目標函數(如最大化夏普比率)進行優化,將自然收斂至同質化頭寸與退出信號,加劇市場共振與流動性危機。
康奈爾大學 2026 年 1 月發表的《CoinAlg》論文正式建模此一悖論:透明 Agent 易遭套利與搶跑;私密 Agent 雖避開外部風險,卻埋下創建者利用內部資訊提取價值的系統性漏洞。這不是工程問題,而是治理與經濟設計的根本挑戰。
Agent 浪潮不會停滯。今日所築造的基礎設施——無論是通訊協議、聲譽系統、安全標準或經濟模型——將直接決定下一代鏈上金融的運作邏輯。最終贏家,必是那些能同時贏得開發者信任、用戶信任與協議信任的生態。
