Kairos 3.0-4B 是專為具身智能打造的原生世界模型,具備極致的物理因果一致性,可實現(xiàn)跨本體泛化,讓同一 “大腦” 驅(qū)動多形態(tài)機器人。

Kairos 3.0-4B 憑借 “多模態(tài)理解 — 生成 — 預測” 一體化架構(gòu),實現(xiàn)物理級深度理解、長時動態(tài)交互,以及精準的動作軌跡預測和控制。7分鐘長時連貫場景動態(tài)交互視頻樹立行業(yè)新標桿。
Kairos 3.0-4B 作為輕量化模型,以 4B 參數(shù)超越主流具身世界模型的能力,兼具高效能推理優(yōu)勢,云端和端側(cè)推理速度大幅領(lǐng)先行業(yè)水平;行業(yè)首個在 THOR 平臺達成 1:1.5 (視頻生成時間:視頻時長)端側(cè)實時生成的具身世界模型。
Kairos 3.0-4B 在多項權(quán)威Benchmark中準確率全面領(lǐng)跑。同時,基于模型能力和推理工具,其推理速度較Cosmos 2.5提升72倍,刷新全球具身世界模型性能紀錄。
近日,大曉機器人重磅開源開悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作為業(yè)內(nèi)首個實現(xiàn) “多模態(tài)理解 — 生成 — 預測” 一體化的開源具身原生世界模型,該模型以 “物理因果一致、跨本體泛化、超長時交互、云側(cè)實時生成、輕量化高效能、端側(cè)本體控制” 為核心優(yōu)勢,性能全面領(lǐng)跑國內(nèi)外主流具身世界模型。
Kairos 3.0-4B 是全球首個可端側(cè)驅(qū)動具身智能本體控制的世界模型,也是行業(yè)內(nèi)首個在 THOR 端側(cè)平臺達成 1:1.5(視頻生成時間:視頻時長)實時生成的具身世界模型。該模型部署于Jetson Thor T5000 端側(cè)平臺,算力可達517 TFlops,不僅能在 3D 仿真環(huán)境中精準生成機械臂運動形態(tài)、完成運動軌跡的預測與規(guī)劃,更可依托 THOR 端側(cè)平臺實現(xiàn)機器人本體的真實驅(qū)動與作業(yè)執(zhí)行,讓機器人真正從“會表演”走向“能干活”。
在全球權(quán)威具身智能 Benchmark 評測中,Kairos 3.0-4B 各項指標全面領(lǐng)先。在 A800 GPU Benchmark 中,基于模型能力和推理工具,Kairos 3.0-4B 的推理速度較 Cosmos 2.5 提升 72 倍,刷新全球具身世界模型性能紀錄,充分驗證了其硬核技術(shù)實力。
Kairos 3.0-4B 兼具通用世界模型能力與具身場景深度賦能優(yōu)勢。在通用場景下,該模型可生成高度還原的真實物理世界,以黃果樹瀑布為例,其能精準呈現(xiàn)自然光影效果,支持流暢運鏡且無畫面跳幀,云、水、葉片等元素均可實現(xiàn)動態(tài)演化;同時,模型深度適配具身智能需求,憑借雙重能力打通數(shù)字仿真與物理執(zhí)行,以中國自研核心技術(shù)破解行業(yè)核心痛點,為具身智能規(guī)模化落地提供核心引擎,成為具備全球競爭力的具身世界模型標桿。
以原生世界模型架構(gòu),筑牢具身智能對物理世界的底層認知
當前,具身智能行業(yè)深陷數(shù)據(jù)稀缺且割裂的困境,傳統(tǒng)生成式模型僅側(cè)重視頻生成,缺乏對物理世界的深度認知,因此面臨長時序交互不足、部署算力成本高昂、狀態(tài)預測物理一致性差等行業(yè)瓶頸。
作為業(yè)內(nèi)首個實現(xiàn) “多模態(tài)理解 — 生成 — 預測” 一體化的開源具身原生世界模型,Kairos 3.0-4B 與市面上 “大模型改款” 的生成式模型有著本質(zhì)區(qū)別。該模型并非在大語言或視覺模型后簡單附加運動接口,而是從架構(gòu)底層為機器人在真實世界的運行進行設(shè)計,以自然界基本物理規(guī)律與因果規(guī)律為認知根基,構(gòu)建起跨本體的統(tǒng)一世界理解框架,徹底打破傳統(tǒng)具身智能 “行為模仿” 的技術(shù)局限,將模型能力升級至 “物理級深度理解” 的全新維度。
圍繞 “理解世界、生成世界、預測世界” 三大核心能力,Kairos 3.0-4B 將物理規(guī)律與因果思維鏈深度嵌入模型決策過程,讓模型做到 “知其然更知其所以然”。其核心突破在于深度融合機器人真機交互、人類行為結(jié)構(gòu)化與思維鏈文本三類關(guān)鍵數(shù)據(jù),有效打破多元數(shù)據(jù)壁壘,大幅提升真實世界數(shù)據(jù)的復用效率,顯著優(yōu)化具身智能的尺度定律效率。
得益于原生架構(gòu)的優(yōu)勢,該模型不再依賴昂貴且稀缺的真機數(shù)據(jù),而是通過內(nèi)化物理規(guī)律、推演因果邏輯,在更優(yōu)的模型與數(shù)據(jù)規(guī)模下,實現(xiàn)強泛化、長時序推理與可靠的端側(cè)部署。它能精準解析物體受力、重心、摩擦等物理約束,完成復雜任務的推理、規(guī)劃與可行性分析,兼容多模態(tài)傳感器指令,高效理解機器人動作與人類行為邏輯,實現(xiàn)從 “執(zhí)行指令” 到 “理解任務” 的本質(zhì)跨越。
在復雜交互場景的實測中,機器人可平穩(wěn)端起盛有水的托盤,運動過程中水面呈現(xiàn)自然真實的水波動態(tài);將托盤放置桌面后,模型憑借任務思維鏈自主規(guī)劃,精準判斷牛奶蘋果的擺放位置,有序?qū)⑽锲芬?guī)整放置于托盤之上。物理因果一致性全面領(lǐng)先全球主流模型
在倒水、疊平衡石等具有一定難度的物理交互場景中,Kairos 3.0-4B 憑借原生世界模型的物理因果一致性優(yōu)勢,通過內(nèi)化物理規(guī)律與因果思維鏈,實現(xiàn)了物理因果一致性全面領(lǐng)先主流具身世界模型,展現(xiàn)出對真實世界規(guī)則的深度理解與精準復現(xiàn)。
在倒水場景中,Kairos 3.0-4B 控制機器人將水從水杯倒入水槽時,水流速度平穩(wěn)且液體總量嚴格匹配水杯容量,完全符合質(zhì)量守恒與流體動力學規(guī)律;而 Cosmos 2.5 與 Lingbot 在該場景中則出現(xiàn)水流速度過快的問題,甚至出現(xiàn)液體總量遠超水杯實際容量的異常情況,物理邏輯嚴重失真。
在疊平衡石場景中,Kairos 3.0-4B 精準復現(xiàn)了石頭的剛性與力學平衡特性,每一塊石頭的堆疊都嚴格遵循重力與支撐結(jié)構(gòu)的物理規(guī)律;Cosmos 2.5 生成的石頭出現(xiàn)懸浮現(xiàn)象,Lingbot 的石頭則喪失剛性屬性,最底層的石頭甚至憑空消失,物理一致性徹底崩塌。
在具身智能領(lǐng)域,長時序視頻生成始終是制約技術(shù)落地的核心瓶頸。
憑借 “多模態(tài)理解 — 生成 — 預測” 一體化架構(gòu),大曉機器人推出的 Kairos 3.0-4B,可結(jié)合Agent智能體技術(shù),在長時序視頻生成能力上實現(xiàn)顛覆性突破。Kairos智能體可將用戶復雜交互指令進行層級化解析與結(jié)構(gòu)化拆解,依托模型對序列間的時空演化、物理規(guī)則、場景動態(tài)及交互邏輯精細化預測,補全連續(xù)世界信息,并通過自我反思機制實現(xiàn)閉環(huán)迭代優(yōu)化。最終生成長達 7 分鐘的具身動態(tài)交互視頻,且全程保持場景連貫與物理真實,為具身智能的訓練與落地開辟了全新路徑。
在家庭場景 Demo 中,機器人實現(xiàn)全流程一鏡到底的自主作業(yè):先有序整理桌面上的杯子與紙巾盒,規(guī)劃合適位置擺放物品,隨后自主進入洗衣機,撿拾衣服,打開洗衣機、完成衣物投放與清洗操作;接著穿過客廳進入廚房,開啟冰箱取出牛奶,打開壁櫥取出麥片,并打開抽屜取出碗與勺子,將麥片和牛奶倒入碗中,自主完成早餐制備。整個過程無斷點,真實展現(xiàn)了模型的流暢動態(tài)交互、物體屬性識別、符合物理規(guī)則的受力操控、柔性衣物物理表征能力,并依托完整任務思維鏈實現(xiàn)多場景自主規(guī)劃與連貫執(zhí)行,驗證了模型在復雜家居環(huán)境下的物理認知、長時序推理與動態(tài)交互能力,后續(xù)將持續(xù)提升超精細操作能力。
這一能力讓具身智能能夠從容應對多場景下的復雜動態(tài)任務。無論是工業(yè)制造中的長流程裝配,還是家庭服務中的持續(xù)交互,Kairos 3.0-4B 都能生成連貫、真實的場景模擬,顯著提升模型的泛化能力與部署可靠性,推動具身智能從實驗室走向產(chǎn)業(yè)一線。
以輕量化實現(xiàn)高效能推理速度
Kairos 3.0-4B 模型憑借架構(gòu)創(chuàng)新與技術(shù)突破,在推理效率、算力消耗、部署適配三大維度均實現(xiàn)業(yè)界領(lǐng)先,同時徹底突破具身智能端側(cè)實時部署的核心瓶頸。
Kairos 3.0-4B 在行業(yè)內(nèi)率先實現(xiàn)云側(cè) 1:1 實時推理,推理速度較 Cosmos 2.5 提升 72 倍。同時,它也是行業(yè)首個在 THOR 平臺端側(cè)部署的具身世界模型,可在端側(cè)實現(xiàn)高效實時推理。依托端側(cè)部署,模型可直接輸出機器人從上肢到手指再到下肢的全方位控制指令,省去中間轉(zhuǎn)譯環(huán)節(jié),讓機器人 “想到即可做到”。
在 A800 GPU 性能 Benchmark 中,Kairos 3.0-4B 憑借自研的混合時間線性注意力算子,實現(xiàn)了算力效率與推理速度的數(shù)量級突破,性能全面碾壓主流具身世界模型。
推理速度上,Kairos 3.0-4B 完成10秒生成任務耗時僅 9.5 秒,比 Cosmos 2.5(687.2 秒)快約 72 倍,比 Wan 2.2(85 秒)快約 9 倍,比 Lingbot(1436 秒)快約 151 倍。
Kairos 3.0-4B 以 4B 輕量化參數(shù)實現(xiàn) 23.5GB 顯存占用,與 5B 的 Wan 2.2 相當,遠低于 14B 的 Cosmos(70.2GB)和 28B 的 Lingbot(46.1GB),在保持極致性能的同時,大幅降低部署門檻,完美適配具身智能端側(cè)實時推理需求,打破 “大參數(shù) = 高性能” 的行業(yè)固有認知。
Kairos 3.0-4B 憑借極低的算力消耗與顯存占用,在單卡、多卡環(huán)境下均實現(xiàn)業(yè)界領(lǐng)先的實時推理速度,完美適配英偉達、沐曦、海光、壁仞等多款 GPU。其高效能特性可直接滿足具身智能系統(tǒng)低延遲、高可靠、端側(cè)實時部署的需求,無需依賴昂貴的真機數(shù)據(jù),即可實現(xiàn)強泛化與可靠部署。
一腦多形,實現(xiàn)多本體泛化新高度
Kairos 3.0-4B 模型另一大核心優(yōu)勢是強大的多本體泛化能力,徹底破解了傳統(tǒng)具身模型 “一本體一訓練” 的行業(yè)痛點,實現(xiàn) “同一大腦適配多本體、多任務” 的高效落地。
Kairos 3.0-4B 支持跨本體任務一鍵生成,可無縫適配單臂、雙臂、靈巧手等不同形態(tài)的機器人本體,針對同一任務無需額外訓練,即可快速生成適配各本體的執(zhí)行策略,實現(xiàn)世界知識的高效共享與遷移,適配性拉滿。在硬件兼容上,模型深度支持智元 - 精靈 G1、松靈 - PIPER、宇樹 G1 等主流機器人硬件,打破不同廠商、不同形態(tài)設(shè)備的本體壁壘。
權(quán)威Benchmark性能全面領(lǐng)跑
Kairos 3.0-4B 模型在全球權(quán)威具身智能與世界模型評測基準中展現(xiàn)出壓倒性的綜合性能,在具身場景實現(xiàn)全面領(lǐng)跑,精準驗證了其 “物理級深度理解 + 高效能架構(gòu)” 的核心優(yōu)勢。
在具身場景中,Kairos 3.0-4B 在三項權(quán)威 Benchmark 中均實現(xiàn)性能領(lǐng)跑:
PAI-Bench-robot(物理 AI 具身綜合基準):由佐治亞理工學院與卡內(nèi)基梅隆大學聯(lián)合開發(fā),是物理 AI 領(lǐng)域首個針對具身場景的綜合評測框架,覆蓋 2808 個真實世界案例,被全球頂尖團隊廣泛采用。
Kairos 3.0-4B以80.03分領(lǐng)跑,全面超越 Cosmos 2.5-2B(78.3 分)、阿里Wan 2.2-5B(78.6 分)、Cosmos 2.5-14B(79.4分)及螞蟻 Lingbot(79.96分),驗證了其在具身任務執(zhí)行、物理交互穩(wěn)定性上的行業(yè)第一地位。
WorldModelBench-robot TI2V(文本到具身視覺生成基準):在CVPR 2025 Workshop提出,是首個專門評估世界模型文本到具身視覺生成能力的基準,通過 67K 人類標注數(shù)據(jù)精準檢測物理一致性與指令遵循能力。
Kairos 3.0-4B以9.08分超越所有競品,顯著領(lǐng)先阿里Wan 2.2-5B(8.52分)、Cosmos 2.5-14B(8.94分),以及Cosmos 2.5-2B、螞蟻Lingbot(均為9.04分),證明其在長時序物理場景理解與生成精度上的領(lǐng)先性。
DreamGen Bench (PA/IF)(機器人視頻生成基準):由 NVIDIA GEAR Lab 開發(fā),通過物理對齊(PA)與交互保真(IF)兩項核心指標,直接評估模型生成數(shù)據(jù)的物理合理性與交互質(zhì)量,是機器人領(lǐng)域的權(quán)威評測工具。
Kairos3.0-4B的PA得分為0.529,大幅領(lǐng)先阿里Wan 2.2-5B(0.314),提升近70%;同時領(lǐng)先Cosmos 2.5-2B(0.418)、Cosmos 2.5-14B(0.495)、螞蟻Lingbot(0.466),分別提升27%、7% 和14%。IF得分為0.609,同樣全面超越競品,相較于Cosmos 2.5-2B、阿里Wan2.2-5B、Cosmos 2.5-14B、螞蟻Lingbot,分別提升7%、12%、27%和7%,直接驗證了其物理因果一致性的核心優(yōu)勢。
作為中國自研的原生具身世界模型,Kairos 3.0-4B 直擊行業(yè)數(shù)據(jù)、算力、物理推理與落地部署等核心瓶頸。該模型既可作為高效數(shù)據(jù)仿真器,低成本、規(guī);糯笥柧殧(shù)據(jù)體量,有效破解真機交互數(shù)據(jù)稀缺的行業(yè)痛點;更能跳出純仿真應用范疇,直接驅(qū)動機器人本體完成各類實體任務,真正打通從虛擬仿真到物理執(zhí)行的全鏈路,讓機器人擁有聰明的“大腦”,加速具身智能智慧躍遷,為具身智能的規(guī);涞靥峁┖诵募夹g(shù)支撐,為全球具身智能行業(yè)發(fā)展貢獻了領(lǐng)先的中國方案。(張揚)
(新媒體責編:zhangyang1125)
聲明:
1、凡本網(wǎng)注明“人民交通雜志”/人民交通網(wǎng),所有自采新聞(含圖片),如需授權(quán)轉(zhuǎn)載應在授權(quán)范圍內(nèi)使用,并注明來源。
2、部分內(nèi)容轉(zhuǎn)自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3、如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。電話:010-67683008
人民交通24小時值班手機:17801261553 商務合作:010-67683008轉(zhuǎn)602
Copyright 人民交通雜志 All Rights Reserved 版權(quán)所有 復制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層
增值電信業(yè)務經(jīng)營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務所 李大偉
京公網(wǎng)安備 11010602130064號 京ICP備18014261號-2 廣播電視節(jié)目制作經(jīng)營許可證:(京)字第16597號