首页 幣資訊 正文
9e6abe99-8c0f-4c91-ae86-61b32b004d8c.png

世界模型:從預測邁向規劃

幣資訊 2026-04-17 7

導語

過去一年,世界模型(World Models)的研究重心已從單純的「預測未來」,逐步轉向「如何將預測能力轉化為可執行、可修正、可驗證的系統級能力」。這一行動範式轉變,正由三條技術路線共同推動:以 V-JEPA 2 為代表的世界表徵學習、以 HWM 為核心的長時程分層規劃,以及以 WAV 為先導的自我驗證與失真校正。三者雖切入點不同,卻在「預測→規劃→驗證」的閉環系統構建上持續收斂。

V-JEPA 2(Video Joint Embedding Predictive Architecture 2)由 Meta 於 2025 年發布,採用超過 100 萬小時網際網路影片進行大規模預訓練,再僅憑不到 62 小時機器人互動視頻完成後續微調,成功建立具動作條件(action-conditioned)的潛在空間世界模型。它證明了:僅靠被動觀察即可習得物理世界的結構性表徵,並遷移至真實機器人理解、預測與零樣本規劃任務中。

然而,預測準確 ≠ 控制可靠。當任務延伸至多階段、長時程場景(如「抓取杯子→打開抽屜→放入→關閉」),單一世界模型便面臨兩大根本瓶頸:其一是預測誤差沿著連續多步推演(rollout)不斷累積;其二是動作搜尋空間隨規劃視距(horizon)呈指數級膨脹。HWM 正是在此背景下誕生——它不重寫底層表徵學習架構,而是在既有動作條件世界模型之上,引入雙時間尺度的分層規劃結構:高層負責階段性路徑組織,低層專注局部動作執行與即時反饋。這種設計,讓世界模型真正邁向「可部署的智能系統」。

一、長時程控制為何仍是世界模型的核心瓶頸?

在機械臂操作等真實任務中,長鏈路控制的難點極為直觀:完成「抓杯入抽屜」需串聯姿態調整、精準抓取、空間導航、門體互動、精細放置等多重子目標。任何一環的預測偏離或策略失焦,都會導致整體失敗。

問題根源不在於局部預測能力不足,而在於缺乏對遠端目標的階段性解構能力。例如,抬高手臂看似偏離最終位置,實則為避障或優化力學接觸;後退調整角度並非倒退,而是為順利開啟抽屜所做的必要準備。單層模型被迫在底層動作空間中直接搜尋整條長鏈,不僅計算成本飆升,誤差亦隨步數疊加擴散,致使規劃結果在真實環境中迅速失效。

二、HWM:以分層規劃重構世界模型的決策流程

HWM(Hierarchical World Model)的核心創新,在於將傳統「單一節奏」的規劃過程,拆解為兩個協同運作的時間層級:

  • 高層規劃器(High-level Planner):以較粗粒度組織階段路徑,輸出的是壓縮後的「高階動作表示」(如「接近物體→執行抓取→導航至抽屜→執行開啟→放置」),而非簡單的狀態位移差。其關鍵在於使用專用編碼器,將一段低層動作序列映射為具語義與路徑資訊的抽象動作,保留中間過程的結構性特徵。
  • 低層執行器(Low-level Executor):接收高層指令,在短視距內完成精確動作生成與即時環境反饋處理(如接觸力變化、視覺偏差修正),並回傳執行狀態供高層動態調整。

這一設計實現三重突破:第一,將長任務分解為多段可控短任務,大幅降低全域搜尋複雜度;第二,高層聚焦「做什麼」與「為何如此安排」,低層專注「如何精準做到」,職責明確、誤差隔離;第三,層級間形成自然的修正接口——低層執行異常可觸發高層重規劃,避免錯誤滾雪球式蔓延。

三、實驗驗證:從 0% 到 70%,分層規劃帶來質變

在論文設定的真實世界抓取-放置任務中,系統僅獲知最終目標狀態(如「杯子位於抽屜內部」),未提供任何人為定義之中間目標或示教軌跡。在此極具挑戰性的設定下:

  • 基於單層世界模型的對照組,成功率為 0%
  • 引入 HWM 分層架構後,成功率躍升至 70%

這意味著:原本幾乎不可解的長時程開放任務,藉由合理的階段組織與誤差管控,已成為大概率可穩定完成的實際能力。

進一步在推物體、迷宮導航等仿真任務中驗證顯示:HWM 不僅顯著提升成功率,更可將規劃階段的計算成本降低至原方案的約 1/4,同時維持更高或相當的任務達成率。這證明分層設計不僅有效,更具工程落地價值。

四、V-JEPA → HWM → WAV:世界模型的三階段進化圖譜

當前世界模型研究已形成清晰的進階脈絡:

  • V-JEPA 2:奠基於世界表徵。透過海量視覺數據學習物理世界的潛在規律,建立可泛化、可遷移的基礎模型。它回答的是:「世界是什麼?」
  • HWM:深化於任務規劃。在已有表徵基礎上,解決「如何把遠端目標轉化為可行、穩健、可分解的行動序列?」——重點在結構化、分層化與誤差抑制。
  • WAV(World Action Verifier):昇華於結果驗證。關注模型自身預測的可信度邊界,透過前向-逆向不對稱性(Forward-Inverse Asymmetry)主動識別易失真區域,並驅動自我修正與策略優化。它回答的是:「我哪裡可能錯了?該如何改進?」

三者並非替代關係,而是互補疊加的系統能力模組。世界模型的下一階段,不再是孤立提升某項指標,而是將「感知—預測—規劃—執行—驗證—修正」整合為一條完整、穩健、可迭代的智能閉環。

五、走向可執行系統:世界模型的終極落地路徑

當代 AI agent 已能高效完成短鏈路任務(如調用工具、讀取文件、執行固定指令序列),但一旦進入長時程、多階段、需動態重規劃的場景(如跨平台協作、複雜服務流程、自主機器人作業),性能便急劇下滑。其本質原因與機器人控制瓶頸高度一致:缺乏高層路徑組織能力,導致局部執行與全局目標脫鉤。

HWM 所提出的分層架構,正為此提供普適解法——高層定義「階段目標」與「路徑邏輯」,低層保障「動作精度」與「即時適應」,再結合 WAV 類驗證機制形成「結果可信度評估」。這種「規劃有層次、執行有反饋、結果可驗證」的三維支撐,將成為下一代世界模型與 AI agent 的標準技術棧。

世界模型的終極價值,不在於模擬一個更逼真的內部世界,而在於打造一個能在真實世界中持續感知、穩健規劃、精準執行、主動修正的可運行智能系統。從內部預測,到可執行系統,這條進化之路,已然清晰展開。

点赞0
BIT投研:五大訊號齊現 比特幣熊市或已終結
« 上一篇 2026-04-17
謝家印Q1述職:UEX全景戰略驗證
下一篇 » 2026-04-17