金品熟女,亚洲av福利社区,好久操精品视频网站

銀河通用機器人推出 LDA：全域數據、跨本體隱式世界-動作基座模型

http://m.henanjusheng.com 2026-04-29 11:20 來源：銀河通用機器人

在語言模型的發(fā)展歷程中，GPT-2 之所以成為一個關鍵里程碑，并不只是因為模型本身能力的提升，更因為它第一次系統性地定義了一個問題——如何讓模型有效利用互聯網規(guī)模的異構數據。

從那一刻起，語言模型不再依賴少量高質量標注數據，而是開始以“全量數據”為燃料，進入持續(xù) Scaling 的時代。

但在具身智能領域，這個問題從未被真正解決。

不同來源的數據彼此割裂：機器人數據與人類數據難以統一，真實與仿真難以融合，有動作標注與無動作視頻難以協同，高質量與低質量數據往往被割裂使用。這些結構性的斷層，使得具身智能始終停留在“數據稀缺驅動”的階段，難以走向規(guī)模化學習。

近日，銀河通用機器人發(fā)布的跨本體「隱式世界-動作基礎模型」LDA，正是對這一問題的正面回答。

其核心突破不單在于模型能力的探索，而在于世界范圍內首次在數據層面實現：虛實共融、人機混合、質量參差、有無動作標簽的數據統一有效利用。

換句話說：一個模型，開始能夠“吞吐全部數據，并讓所有的數據各盡其用”。

這也意味著，具身智能第一次真正具備了類似 GPT-2 的能力——進入以數據規(guī)模驅動性能持續(xù)提升的新階段。

具身數據范式新標準：從“篩選數據”到“組織數據”

在具身智能中，數據問題從來不是“有沒有”，而是“能不能被統一利用”。

長期以來，不同類型的數據彼此割裂：真實機器人數據規(guī)模有限，遙操作數據成本高昂，人類視頻缺乏動作標注，互聯網數據難以對齊物理世界，而仿真數據又始終面臨真實性約束。這使得具身智能始終依賴少量高質量數據驅動，難以走向規(guī)?；?/p>

銀河通用的解決方式，是構建完整的數據基礎設施——銀河星數（AstraData），并在 LDA 中實現對全類數據的統一完整運用。

圍繞這一體系，銀河通用構建了一個自下而上的數據結構（五層金字塔）：

互聯網圖像/視頻/文本數據（底層）：規(guī)模最大、成本最低，用于構建基礎感知與語義理解能力，但與具體動作執(zhí)行相關性較弱

人類行為數據（次底層）：提供動作先驗與任務理解，將“視覺認知”連接到“行為語義”

多本體合成仿真數據（中間層，銀河自研合成數據管線產出）：以物理一致性為約束，大規(guī)模生成可控、多樣的機器人交互數據，實現從認知到執(zhí)行的關鍵過渡

真實遙操作數據（高層）：提供高質量動作示范，但規(guī)模與采集效率受限

真實機器人自主運行數據（頂層）：來自真實部署環(huán)境的閉環(huán)數據，直接反映系統在現實世界中的運行表現，并持續(xù)驅動強化學習與系統優(yōu)化

高質量專家數據：同時用于策略與動力學建模，定義“最優(yōu)動作”

低質量與噪聲數據：用于前向與逆向動力學學習，刻畫真實世界演化

無動作標注視頻：用于視覺預測，提取行為結構與潛在意圖

在這一框架下，數據不再被簡單劃分為“有用或無用”，而是被系統性重組進統一的世界-動作模型之中。

這一范式在 LDA 中首次展現出清晰的規(guī)?；卣鳎弘S著數據規(guī)模從數千小時擴展至數萬小時，模型性能持續(xù)穩(wěn)定提升。

尤其關鍵的是：即使引入大量低質量甚至失敗數據，模型性能不降反升；在高質量動作數據耗盡后，僅依賴無動作標注的人類視頻，模型依然可以持續(xù)進步。

這意味著，低質量數據與無動作數據，同樣可以驅動具身模型的持續(xù) Scaling——這一點，是傳統行為克?。˙C）及既有世界模型方法難以實現的。

從這個角度看，LDA 不僅是一個模型突破，更是「銀河星數」數據體系在模型層的關鍵閉環(huán)——標志著具身智能開始真正進入以數據驅動的規(guī)?；l(fā)展階段。

具身模型范式統一：從 VLA， World Model 到 World Action Model

如果說數據決定模型能學什么，那么模型結構決定它如何理解這些數據。

傳統機器人模型，本質上是從感知到動作的映射，其能力邊界在于：它可以執(zhí)行動作，但并不真正理解“動作之后世界會發(fā)生什么”。

LDA 在這一點上進行了根本性改變。

銀河通用提出并實踐的，是將 World Model（世界模型）與 Action Model（動作模型）統一的框架，即 WAM（World-Action Model）。

在模型層面，LDA 并不是一次結構創(chuàng)新，而是銀河通用長期技術路線的自然延伸。

銀河通用提出并實踐的，是將World Model（世界模型）與Action Model（動作模型）統一的框架，即 WAM（World-Action Model）。

這一方向如今已成為具身智能領域的研究熱點，但早在 2025 年 3 月，銀河通用發(fā)表了 DyWA: Dynamics-adaptive World Action Model，在全球范圍內首次對 WAM 的概念進行結構化定義，并在接觸動力學復雜的任務實現了成功的驗證。

2025 年 3 月銀河通用團隊率先對 World-Action Model 展開前沿探索

在論文中，團隊對 WAM 進行了系統性的定義

從這一時間節(jié)點來看，團隊并非在跟隨趨勢，而是在這一關鍵范式尚未形成行業(yè)共識之前，就已經完成了前瞻研究。

也正是在這一技術路徑的持續(xù)演進下，LDA 得以在同一模型中統一學習策略、動力學與視覺預測能力，形成真正閉環(huán)的“世界—行動”聯合建?？蚣?，使模型從“執(zhí)行動作”走向“理解并作用于世界”。

在這一框架下，模型在同一體系中同時學習：

策略學習（Policy Learning）：從當前觀測生成動作

前向動力學（Forward Dynamics）：預測動作將如何改變世界

逆向動力學（Inverse Dynamics）：從結果反推中間行為

視覺預測（Visual Forecasting）：在無動作條件下推演世界未來

這些能力不再彼此割裂，而是在同一表示空間與訓練過程中協同優(yōu)化，形成一個完整的“感知—決策—反饋”閉環(huán)。

這帶來了以往模型難以實現的能力躍遷，換句話說，在「銀河星腦」的整體架構中，LDA 讓機器人第一次具備了這樣一種能力：既能行動，也能理解行動如何改變世界。

這一步，使機器人從“執(zhí)行任務的工具”，開始邁向“理解世界的系統”。

視覺表征統一和動作對齊：面向規(guī)?；南到y解法

World Action Model 類方法通常使用 VAE 派生的像素級表示進行動力學預測。這條路看似合理，卻暗藏一個結構性缺陷：VAE 潛空間將外觀、幾何、動力學混雜在一起，不同機器人平臺、不同光照場景的數據在這個空間里難以對齊，導致動力學學習受到嚴重干擾，更重要的是——難以隨規(guī)模擴展持續(xù)收益。

論文數據直接說明了這一點：將 UWM 從 0.1B 擴展到 1B，RoboCasa-GR1 成功率僅從 14.2% 提升至 19.3%，即使替換為 MM-DiT 也只有 20.0%，Scaling 幾乎停滯。

LDA 的核心選擇，是放棄 VAE，轉向 DINO 結構化潛空間。DINO 通過自監(jiān)督預訓練，天然過濾光照、紋理等外觀冗余，保留物體級語義與空間結構。在這個空間中，不同機器人、不同環(huán)境的數據具有一致的表達形式——外觀差異被壓制，物理相關信息被突出，使跨本體的動力學學習真正成為可能。

而僅有視覺統一還遠遠不夠，真正阻礙具身大模型擴展的另一堵墻，是動作空間的割裂。

不同機器人本體往往擁有完全不同的執(zhí)行器形式：兩指夾爪、多指靈巧手、吸盤、剪刀式末端執(zhí)行器……如果仍然沿用各自獨立的關節(jié)空間（joint space）建模，動作語義天然無法共享，數據規(guī)模再大，也只是分散在彼此孤立的數據孤島中。

LDA 首次系統性地提出了一套統一的 hand-centric action space，將所有動作統一映射到“手如何作用于世界”這一物理本質上，而不是機器人自身的關節(jié)定義上。

具體來說，動作由兩部分組成：

其一，是末端執(zhí)行器的 delta wrist pose，即手腕在連續(xù)時刻之間的位姿變化（位置 + 姿態(tài)）；這部分刻畫的是操作意圖本身，例如靠近、推拉、插入、翻轉、對齊等跨本體共享的核心操作語義。

其二，是 finger configuration，即手部接觸形態(tài)。對于 parallel-jaw gripper（平行夾爪），使用單自由度的 gripper width 表示開合狀態(tài)；而對于 multi-finger dexterous hand（多指靈巧手），則使用在 wrist 坐標系下定義的關鍵點（keypoints）來描述手指構型，而非依賴不同本體各異的關節(jié)參數。

這一設計的關鍵突破在于：它不再讓模型學習“某臺機器人怎么動關節(jié)”，而是學習“手如何與物體發(fā)生作用”。

這意味著，夾取、旋轉、插入、剪切這類操作，不再被綁定在某一種機械結構上，而能夠在不同本體之間共享動力學規(guī)律。無論是仿真中的雙指夾爪，還是真實世界中的多指靈巧手，模型看到的都是統一的物理交互語言。

超強真機表現：跨本體、少樣本、長程靈巧操作

LDA 在真實世界中展現出強大的泛化與執(zhí)行能力，模型在全部任務類別上穩(wěn)定超越 GR00T-N1.6 和 π₀.₅，展現出更強的泛化與適應能力。

GROOT-N1.6、π0.5、LDA 三項工作在各類任務中使用二指夾爪操作的成功率對比

GROOT-N1.6、π0.5、LDA 三項工作在具體任務中使用靈巧手操作的成功率對比

少樣本跨本體泛化

從工業(yè)場景中的物體搬運，到零售環(huán)境中的取放操作，再到家庭中的日常任務，LDA 能夠在多種場景下穩(wěn)定執(zhí)行任務。

值得強調的是，所有測試所使用的機器人本體，均未出現在預訓練數據中。

在這一嚴格設置下，在 Pick-and-Place 任務中進一步引入多種分布外擾動，包括未見位置、新物體以及背景變化。

結果表明，LDA 在各類擾動下仍能保持較高成功率，而僅依賴行為克?。˙C）的基線模型性能則出現顯著下降。

這表明，LDA 學到的不只是“動作模仿”，而是能夠跨本體遷移的世界-動作結構。

長程靈巧操作

在更具挑戰(zhàn)性的長程任務與高自由度操作中，LDA 同樣表現出色。例如，模型可以完成“煎牛排”“疊紙杯塔”等復雜操作，這類任務既需要長時序規(guī)劃能力，也依賴精細的接觸建模與控制能力。

在 LDA 驅動下，機器人可以勝任煎牛排這一長程任務，即便中途受到干擾（打斷現有任務，發(fā)布新任務），機器人依然可以隨機應變，按照指令理解并行動

失敗數據讓性能再提升

一個更具啟發(fā)性的現象來自低質量真機數據。

在相同的數據設置下，將這部分包含大量失敗和不穩(wěn)定操作的數據加入訓練：對于 π₀.₅，性能明顯下降；而對于 LDA，性能反而持續(xù)提升。

這表明，LDA 并不是簡單依賴“干凈數據”，而是能夠從失敗中學習世界的真實動力學，將原本被視為噪聲的數據轉化為有效信號。

具身基礎模型進入“可規(guī)模化時代”

LDA 的突破，意味著具身智能的 scaling 路徑正在發(fā)生根本性變化：它不再依賴稀缺而昂貴的專家示范數據作為唯一燃料，而是開始向更廣泛、更真實、更復雜的數據來源全面打開——包括業(yè)務回流數據、低質量操作軌跡，以及大規(guī)模人類行為視頻。

在這一范式下，數據不再被嚴格篩選為“可用”與“不可用”，而是被統一納入模型對世界的建模過程之中。真正決定能力上限的，不再是數據是否完美，而是模型是否具備從異構數據中抽取結構、規(guī)律與因果關系的能力。

從這個角度看，LDA 回答的并不只是“如何構建一個更強的模型”，而是一個更基礎的問題：機器人，是否可以像語言模型一樣，從海量異構數據中持續(xù)學習世界本身？

而 LDA 給出的答案正在變得清晰：當動力學學習、策略學習與視覺預測被統一到同一表示空間，當低質量甚至失敗數據也能轉化為有效監(jiān)督信號，具身智能就第一次具備了“從真實世界持續(xù)學習”的基礎條件。

在這一進程中，銀河通用將 LDA 的核心算法與代碼體系全面開源，希望推動行業(yè)從封閉優(yōu)化走向開放共建，加速基礎能力的整體躍遷。

更重要的是，這一能力并非孤立存在，而是嵌入在「銀河星腦（AstraBrain）」的完整技術體系之中：從「銀河星坊」所構建的數據基礎設施，到跨本體的世界-動作基礎模型，再到面向真實場景的持續(xù)部署與反饋學習閉環(huán)，正在形成一條完整的具身智能技術管線。

接下來，這一體系將進一步向真實應用場景延展，從工業(yè)制造、零售服務，到復雜開放環(huán)境中的自主作業(yè)能力，推動具身智能從“可演示能力”，走向“可持續(xù)運行能力”，并最終成為新一代生產力基礎設施的一部分。

欧美韩国日本桃色,一区二区三区国产私人毛片,精品极品精品,亚洲一区人妻,久久久久久久久亚洲免费,青娱乐91,亚洲情涩,久久久成人毛片,日本欧美不卡二区在线

銀河通用機器人推出 LDA：全域數據、跨本體隱式世界-動作基座模型

相關新聞

編輯精選

工控原創(chuàng)

欧美韩国日本桃色,一区二区三区国产私人毛片,精品极品精品,亚洲一区人妻,久久久久久久久亚洲免费,青娱乐91,亚洲情涩,久久久成人毛片,日本欧美不卡二区在线

銀河通用機器人推出 LDA：全域數據、跨本體隱式世界-動作基座模型

相關新聞

編輯精選

工控原創(chuàng)

銀河通用機器人推出 LDA：全域數據、跨本體隱式世界-動作基座模型