IT之家 8 月 15 日消息,智元機器人昨天通過公眾號宣布,推出行業(yè)首個面向真實世界機器人操控的統(tǒng)一世界模型平臺 --- Genie Envisioner(GE)。
根據(jù)官方介紹,不同于傳統(tǒng)“數(shù)據(jù) — 訓練 — 評估”割裂的流水線模式,GE 將未來幀預測、策略學習與仿真評估首次整合進以視頻生成為核心的閉環(huán)架構,使機器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行。基于 3000 小時真機數(shù)據(jù),GE-Act 不僅在跨平臺泛化和長時序任務執(zhí)行上顯著超越現(xiàn)有 SOTA,更為具身智能打開了從視覺理解到動作執(zhí)行的全新技術路徑。
IT之家附開源有關鏈接:
Project page:https://genie-envisioner.github.io/
Arxiv:https://arxiv.org/abs/2508.05635
Github:https://github.com/AgibotTech/Genie-Envisioner
GE 平臺通過構建統(tǒng)一的視頻生成世界模型,將這些分散的環(huán)節(jié)集成到一個閉環(huán)系統(tǒng)中。基于約 3000 小時的真實機器人操控視頻數(shù)據(jù),GE 建立了從語言指令到視覺空間的直接映射,保留了機器人與環(huán)境交互的完整時空信息。
基于強大的視覺空間預訓練,GE-Act 僅需極少量數(shù)據(jù)即可實現(xiàn)跨平臺遷移。在 Agilex Cobot Magic 和 Dual Franka 等全新機器人平臺上,GE-Act 僅使用 1 小時(約 250 個演示)的遙操作數(shù)據(jù)就實現(xiàn)了高質(zhì)量的任務執(zhí)行。
智元方面表示,團隊將開源全部代碼、預訓練模型和評測工具。GE 通過視覺中心的世界建模,為機器人學習開辟了新的技術路徑。GE 的發(fā)布,標志著機器人從被動執(zhí)行向主動‘想象 — 驗證 — 行動’的轉(zhuǎn)變。未來,將擴展更多傳感器模態(tài),支持全身移動與人機協(xié)作,持續(xù)推動智能制造與服務機器人的落地應用。