LeCun 世界模型出 2 代了，62 小時搞定機器人訓練，開啟物理推理新時代

量子位·2025 年 06 月 12 日 20：09

首個基於視頻訓練的世界模型——V-JEPA 2

物理學正在走向人工智慧——

Meta 開源發佈 V-JEPA 2 世界模型：一個能像人類一樣理解物理世界的 AI 模型。

圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 親自出鏡宣傳，並稱：

我們相信世界模型將為機器人技術帶來一個新時代，使現實世界中的 AI 智慧體能夠在不需要大量機器人訓練數據的情況下説明完成家務和體力任務。

那什麼是世界模型呢？

簡單說，就是能夠對真實物理世界做出反應的 AI 模型。

它應該具備以下幾種能力：

理解：世界模型應該能夠理解世界的觀察，包括識別視頻中物體、動作和運動等事物。

預測：一個世界模型應該能夠預測世界將如何演變，以及如果智慧體採取行動，世界將如何變化。

規劃：基於預測能力，世界模型應能用於規劃實現給定目標的行動序列。

V-JEPA 2（Meta Video Joint Embedding Predictive Architecture 2 ）是首個基於視頻訓練的世界模型（視頻是關於世界資訊豐富且易於獲取的來源）。

它提升了動作預測和物理世界建模能力，能夠用於在新環境中進行零樣本規劃和機器人控制 。

V-JEPA 2 一發佈就引起了一片好評，甚至有網友表示：這是機器人領域的革命性突破！

62小時訓練即可生成規劃控制模型

V-JEPA 2 採用自監督學習框架，利用超過 100 萬小時的互聯網視頻和圖像數據進行預訓練，不依賴語言監督，證明純視覺自監督學習可以達到頂尖表現。

上圖清晰地展示了如何從大規模視頻數據預訓練到多樣化下游任務的全過程：

輸入數據：利用100萬小時互聯網視頻和100萬圖片進行預訓練。

訓練過程：使用視覺掩碼去噪目標進行視頻預訓練。

下游應用分為三類：

理解與預測：行為分類、物體識別、行為預測;

語言對齊：通過與 LLM 對齊實現視頻問答能力;

規劃：通過後訓練行動條件模型（V-JEPA 2-AC）實現機器人操作。

V-JEPA 2 採用聯合嵌入預測架構（JEPA），主要包含兩個元件： 編碼器和預測器 。

編碼器接收原始視頻並輸出能夠捕捉有關觀察世界狀態的語義資訊的嵌入。

預測器接收視頻嵌入以及關於要預測的額外上下文，並輸出預測的嵌入。

研究團隊用視頻進行自監督學習來訓練 V-JEPA 2，這就能夠在無需額外人工標註的情況下進行視頻訓練。

V-JEPA 2 的訓練涉及兩個階段：先是無動作預訓練 （下圖左側），然後是額外的動作條件訓練 （下圖右側）。

經過訓練后，V-JEPA 2 在運動理解方面取得了優異性能（在 Something-Something v2 上達到 77.3 的 top-1 準確率），並在人類動作預測方面達到了當前最佳水準（在 Epic-Kitchens-100 上達到 39.7 的 recall-at-5），超越了以往的任務特定模型。