- +1
CES 2026 | 機(jī)器人開(kāi)發(fā)的“ChatGPT時(shí)刻”已到,老黃定調(diào)“物理AI”的路線圖
作者:毛爍
如果深入拆解黃仁勛的觀點(diǎn)內(nèi)核,就會(huì)發(fā)現(xiàn)“物理 AI(Physical AI)”這一概念的實(shí)際上是底層控制權(quán)交接——當(dāng)物理 AI(Physical AI)通過(guò)了技術(shù)進(jìn)化的臨界點(diǎn),從人類編寫(xiě)的確定性代碼,移交給了具有泛化能力的、理解物理規(guī)律的神經(jīng)網(wǎng)絡(luò)。
基于這一理念,NVIDIA發(fā)布了一系列全新的物理AI模型。

Cosmos全新模型給機(jī)器人裝上“物理直覺(jué)”
過(guò)去十年,機(jī)器人在智能化升級(jí)這條路上始終被一個(gè)核心瓶頸制約著——常識(shí)的缺失。
無(wú)論是像波士頓動(dòng)力Atlas這樣的前沿產(chǎn)品,還是工廠流水線機(jī)械臂這樣的企業(yè)大規(guī)模應(yīng)用場(chǎng)景,這些機(jī)器人事實(shí)上都是在執(zhí)行預(yù)設(shè)的軌跡,雖然精度做的越來(lái)越高,但是只要環(huán)境出現(xiàn)未建模的細(xì)微變化(例如地面突然多了一灘油、被抓取物體的摩擦系數(shù)發(fā)生偏移)系統(tǒng)就會(huì)因模型失配而迅速失穩(wěn),甚至直接崩潰。
問(wèn)題的根源在于,傳統(tǒng)控制算法并不真正“理解”物理世界。其本質(zhì)上是在結(jié)合歷史數(shù)據(jù)、嚴(yán)格執(zhí)行指令,而非具備對(duì)物理規(guī)律的理解。工程實(shí)踐中,這一缺陷通常被掩蓋在大量“補(bǔ)丁式”的工作里,比如,在ROS節(jié)點(diǎn)中寫(xiě)復(fù)雜的狀態(tài)機(jī)、用窮舉的“if-else”做長(zhǎng)尾的場(chǎng)景,又或者是在Simulink里反復(fù)調(diào)校PID參數(shù),來(lái)?yè)Q取局部工況的穩(wěn)定性。
而現(xiàn)在,這種方式的擴(kuò)展性正在觸及天花板。如果仍然固守“感知(CNN)+ 規(guī)劃(A*/ Lattice)+ 控制(MPC)的上一代技術(shù)棧里,事實(shí)上已經(jīng)站在了被新技術(shù)性淘汰的邊緣。
接下來(lái)的行業(yè)競(jìng)爭(zhēng),其實(shí)已經(jīng)不再取決于誰(shuí)的工程代碼更工整、算法更優(yōu),而在于誰(shuí)能夠?qū)⒑A空鎸?shí)與仿真數(shù)據(jù)蒸餾為可遷移、可泛化的物理世界行動(dòng)策略。
這也正是NVIDIA推出Cosmos(世界級(jí)基礎(chǔ)模型)的原因,其致力于從根本上解決上述問(wèn)題。
另外,需要澄清的是,Cosmos的真正價(jià)值并不在于“生成視頻”本身。視頻只是其對(duì)外呈現(xiàn)的媒介,更準(zhǔn)確地說(shuō),Cosmos可以被理解為以生成模型為核心的、可學(xué)習(xí)的世界級(jí)物理模擬器(Learned Physics Simulator)。
換句話說(shuō),Cosmos是在預(yù)測(cè)、推演物理世界中“下一步會(huì)發(fā)生什么”。
也正因如此,Cosmos直接嵌入了機(jī)器人決策與控制鏈路,分別在實(shí)時(shí)預(yù)測(cè)、長(zhǎng)期推理和工程遷移三個(gè)層面補(bǔ)齊了傳統(tǒng)機(jī)器人系統(tǒng)的短板。
在傳統(tǒng)的機(jī)器人控制回路(Control Loop)中,狀態(tài)估計(jì)(State Estimation)通常依賴于卡爾曼濾波等算法(通過(guò)系統(tǒng)輸入輸出觀測(cè)數(shù)據(jù),對(duì)系統(tǒng)狀態(tài)進(jìn)行最優(yōu)估計(jì)的算法)。但是,這類算法對(duì)于非線性強(qiáng)、接觸復(fù)雜的場(chǎng)景(如柔性物體操作)無(wú)能為力。
然而,智能機(jī)器人系統(tǒng)中,決策并非發(fā)生在單一時(shí)間尺度上。一方面,控制回路需要在毫秒級(jí)內(nèi)對(duì)環(huán)境變化做出反饋;另一方面,決策往往發(fā)生在秒級(jí)甚至更長(zhǎng)時(shí)間尺度上,負(fù)責(zé)任務(wù)分解與策略選擇。
Cosmos正是沿著這時(shí)間尺度進(jìn)行拆分和設(shè)計(jì)的。
具體看,NVIDIA Cosmos Transfer 2.5 和 NVIDIA Cosmos Predict 2.5兩款開(kāi)源模型解決的是“快思考”的問(wèn)題。其可以直接嵌入實(shí)時(shí)控制層,當(dāng)攝像頭捕捉到一幀圖像時(shí),Cosmos Predict并不會(huì)立刻對(duì)像素做逐幀外推,而是對(duì)物理狀態(tài)的演化軌跡進(jìn)行推演。
此次更新的NVIDIA Cosmos Predict 2.5融合了 Text 2 World、Image 2 World和 Video 2 World等生成能力,可用統(tǒng)一架構(gòu)生成連貫、可控的視頻世界模擬輸出,其可以根據(jù)文本、圖像或視頻輸入,生成跨時(shí)間的環(huán)境演化序列(如連續(xù)畫(huà)面),在仿真與數(shù)據(jù)增強(qiáng)中用于訓(xùn)練、評(píng)估或預(yù)測(cè)未來(lái)狀態(tài)。
以“機(jī)械臂倒水”為例,傳統(tǒng)方法需要顯式求解流體動(dòng)力學(xué)方程,計(jì)算復(fù)雜度高,難以滿足實(shí)時(shí)性要求。NVIDIA Cosmos Predict 2.5的方法,是通過(guò)學(xué)習(xí)海量物理視頻數(shù)據(jù),在給定當(dāng)前觀測(cè)和動(dòng)作擾動(dòng)的條件下,實(shí)時(shí)預(yù)測(cè)下一時(shí)刻的流體分布與不確定性,從而為控制器提供“是否會(huì)失穩(wěn)或?yàn)R出”的快速判斷依據(jù)。

截取自:github
這種能力賦予機(jī)器人一種近似人類的物理直覺(jué),使其能夠在動(dòng)作執(zhí)行過(guò)程中基于即時(shí)物理反饋進(jìn)行連續(xù)微調(diào)(Reactive Control)。因此,當(dāng)狀態(tài)出現(xiàn)小幅偏移時(shí),系統(tǒng)無(wú)需回退到高層規(guī)劃器重新計(jì)算整條運(yùn)動(dòng)路徑。
NVIDIA Cosmos Transfer 2.5是轉(zhuǎn)換模型,用來(lái)在不同的空間或條件下調(diào)整模擬世界的輸出,支持空間條件控制的風(fēng)格遷移(比如光照、天氣、環(huán)境變化等),從仿真場(chǎng)景到真實(shí)感合成數(shù)據(jù)的過(guò)渡。
其比前代模型更小、更快、生成質(zhì)量更高,并在域間遷移(Sim-to-Real / Real-to-Real)時(shí)可減少誤差累積,是橋接仿真訓(xùn)練與現(xiàn)實(shí)部署的重要工具。

截取自:github
如果說(shuō)NVIDIA Cosmos Transfer 2.5、NVIDIA Cosmos Predict 2.5可以理解為人的小腦,那么開(kāi)源的推理視覺(jué)語(yǔ)言模型Cosmos Reason 2就是大腦皮層,其負(fù)責(zé)的是跨時(shí)間尺度的理解、推理與決策。
NVIDIA Cosmos Reason 2引入了大語(yǔ)言模型中成熟的思維鏈(CoT)機(jī)制,并將其擴(kuò)展到視覺(jué)—?jiǎng)幼鳎╒ision-Action)領(lǐng)域,使機(jī)器人能夠在感知環(huán)境的同時(shí),對(duì)動(dòng)作進(jìn)行顯式推理。
這一點(diǎn)在長(zhǎng)周期、開(kāi)放環(huán)境的復(fù)雜任務(wù)中尤為關(guān)鍵。例如在“清理廚房臺(tái)面”這類任務(wù)中,真正的難點(diǎn)并不在單個(gè)動(dòng)作的執(zhí)行,而在于任務(wù)分解、因果判斷與風(fēng)險(xiǎn)規(guī)避。傳統(tǒng)任務(wù)規(guī)劃器依賴預(yù)定義的PDDL(規(guī)劃域定義語(yǔ)言),對(duì)場(chǎng)景變化高度敏感,幾乎不具備泛化能力。
而NVIDIA Cosmos Reason 2則能夠直接從圖像中理解語(yǔ)義與空間關(guān)系,并在此基礎(chǔ)上完成多步推理,將感知、推理與決策緊密耦合的能力,有效避免了傳統(tǒng)模塊化架構(gòu)中層層傳遞所帶來(lái)的信息損耗。
更重要的是,NVIDIA Cosmos Reason 2具備反事實(shí)推理能力,在動(dòng)作執(zhí)行前預(yù)演不同決策可能帶來(lái)的后果,從而主動(dòng)規(guī)避高風(fēng)險(xiǎn)操作。這使機(jī)器人不再只是“按流程辦事”,而是開(kāi)始具備面向真實(shí)物理世界的判斷能力。
仿真與現(xiàn)實(shí)的鴻溝(Sim-to-Real Gap)被業(yè)界稱之為人形機(jī)器人落地的“天塹”。主要原因在于渲染圖像與真實(shí)圖像的域差異(Domain Gap),以及仿真物理引擎與真實(shí)物理世界的參數(shù)偏差(SystemID Error)。
NVIDIA Cosmos Transfer2.5提供了一套基于生成式AI的域適應(yīng)方案。其能將NVIDIA Isaac Sim中生成的完美合成數(shù)據(jù),轉(zhuǎn)換成帶有真實(shí)世界噪聲、光照干擾甚至鏡頭畸變的數(shù)據(jù),同時(shí)保持物理參數(shù)不變。
反之,其也能將真實(shí)世界的稀疏數(shù)據(jù)增強(qiáng)為仿真環(huán)境中的多樣化場(chǎng)景。這意味著開(kāi)發(fā)者在仿真中訓(xùn)練的策略網(wǎng)絡(luò)(Policy Network)中,從部署到真機(jī)時(shí)的Zero-shot成功率將得到質(zhì)的提升。
推理與決策之后,推理的結(jié)果,將轉(zhuǎn)化為人形機(jī)器人可執(zhí)行的連續(xù)全身動(dòng)作。NVIDIA 的答案是NVIDIA Isaac GR00T。此次,NVIDIA Isaac GR00T迎來(lái)了1.6版本的更新。
在架構(gòu)方面,Isaac GR00T 1.6采用Cosmos Reason 2B的視覺(jué)語(yǔ)言模型(VLM),支持靈活分辨率編碼,無(wú)需填充,并在預(yù)訓(xùn)練期間解鎖前四層以增強(qiáng)動(dòng)作生成能力。
同時(shí),動(dòng)作生成部分的擴(kuò)散變換器(DiT)由16層升級(jí)為32 層,更好地對(duì)連續(xù)動(dòng)作序列進(jìn)行去噪和生成。相比1.5版本移除了VLM 后置的Transformer適配器,使視覺(jué)理解與動(dòng)作生成耦合更緊密;此外,模型輸出相對(duì)動(dòng)作狀態(tài),而非絕對(duì)關(guān)節(jié)角度,提高了跨形態(tài)適應(yīng)性。

截取自:github
在訓(xùn)練數(shù)據(jù)上,1.6版本除繼承1.5 版本的數(shù)據(jù)外,新增了數(shù)千小時(shí)的遙操作與仿真全身運(yùn)動(dòng)數(shù)據(jù),包括雙手操作的Yumi 臂 (ABB的雙臂機(jī)器人)、AGIBot Genie1、Galaxea R1 Pro 模擬,以及Unitree G1全身控制數(shù)據(jù)。
工程上,1.6版本提供了更高效的數(shù)據(jù)加載、異步策略封裝和靈活訓(xùn)練配置,使研究人員能夠在小規(guī)模數(shù)據(jù)上微調(diào)模型,并快速部署到不同機(jī)器人任務(wù)中,實(shí)現(xiàn)定制化全身動(dòng)作控制。
“大模型”落地邊緣機(jī)器人:破除Python局限 C++“突圍”
如果說(shuō) Cosmo賦予了機(jī)器人“靈魂”,那么“邊緣算力”與“仿真”的深度變革,則解決了困擾具身智能落地的兩個(gè)難題——邊緣端大模型的實(shí)時(shí)推理瓶頸,以及機(jī)器人策略的標(biāo)準(zhǔn)化評(píng)估難題。
隨著Transformer 架構(gòu)的應(yīng)用,“算力饑渴”和“功耗墻”問(wèn)題顯著。
就比如,一個(gè)7B參數(shù) VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型,使用FP16精度,就需要占用巨量顯存,如果保證交互流暢,往往還要同時(shí)運(yùn)行視覺(jué)編碼器、大語(yǔ)言模型和策略網(wǎng)絡(luò)。面對(duì)多模態(tài)大模型的并發(fā)壓力,顯存和帶寬成為第一道瓶頸。
所以,這次更新的Jetson T4000模組,是NVIDIA為物理AI落地提供的物理保障。
Jetson T4000擁有1536核心NVIDIA Blackwell架構(gòu)的GPU,配備第五代Tensor 核心,支持多實(shí)例GPU,擁有6個(gè)TPC。可提供高達(dá)1200 TFLOPS的算力,和64 GB 內(nèi)存,包含1個(gè)NVENC和1個(gè)NVDEC硬件視頻編解碼器引擎,可實(shí)現(xiàn)實(shí)時(shí)4K視頻編碼和解碼。

截取自:NVIDIA 官網(wǎng)
然而,1200TFLOP的震撼數(shù)字之下,有一個(gè)關(guān)鍵的前綴:FP4精度。對(duì)于熟悉Blackwell架構(gòu)的人來(lái)說(shuō),其實(shí)是一個(gè)意料之中的事。
一方面Blackwell架構(gòu)本身對(duì)FP4精度有原生的支持和推理加速,另一方面,在Transformer模型中,激活值的分布存在大量的離群點(diǎn)(Outliers),這導(dǎo)致傳統(tǒng)的INT8量化(Orin平臺(tái)就是INT8量化)往往伴隨精度損失。
而FP4精度,通過(guò)保留指數(shù)位和更精細(xì)的動(dòng)態(tài)縮放,在保持模型性能幾乎無(wú)損的前提下,將顯存占用壓縮了一半,帶寬利用率翻倍,性能提升4倍。
這意味著什么?在Jetson T4000這塊功耗僅為40W~70W的板卡上,64GB的統(tǒng)一LPDDR5x內(nèi)存(帶寬273 GBps)顯得很“闊綽”。
在FP16精度下,其70B參數(shù)的模型都無(wú)法加載。但在FP4精度下,模型權(quán)重被壓縮了一半以上(相比INT8)甚至75%(相比FP16)。這意味著Jetson T4000可以在本地顯存中同時(shí)并發(fā)運(yùn)行Qwen-32B級(jí)別的推理模型和CLIP視覺(jué)編碼器,以及Diffusion網(wǎng)絡(luò),無(wú)需頻繁地進(jìn)行內(nèi)存交換。
從基準(zhǔn)測(cè)試來(lái)看,Jetson T4000在運(yùn)行Qwen3-30B-A3B模型時(shí),吞吐量達(dá)到了218 tokens/s。而人類的閱讀速度大約也就是5~10 tokens/s。這說(shuō)明,Jetson T4000能以20倍于人類語(yǔ)速的效率進(jìn)行“思維鏈”推演,為復(fù)雜的機(jī)器人控制留出了巨大的時(shí)間窗口。
Jetson T4000的升級(jí)款Jetson T5000性能更強(qiáng),達(dá)到2070TFLOPS的算力輸出(依舊是FP4)。從實(shí)際推理性能來(lái)看Jetson T5000 相比 T4000 在多款大模型推理中均有提升:Qwen 3 30B-A3B提速19%,Qwen 3 32B提速22%,Nemotron 12B表現(xiàn)最亮眼,速度提升53%;DeepSeek R1 Distill Qwen 32B加速28%,蒸餾模型適配性明顯改善。輕量級(jí)模型 Mistral 3 14B和GR00T N1.5分別提速 9%,整體體現(xiàn)出T5000 在大模型與定制化模型場(chǎng)景的全方位優(yōu)化。

截取自:NVIDIA 官網(wǎng)
硬件決定了上限,那么軟件就決定了落地的下限。
本次,NVIDIA更新的JetPack 7.1,解決了長(zhǎng)期困擾嵌入式中——Python在實(shí)時(shí)系統(tǒng)中的不可靠性。
過(guò)去,開(kāi)發(fā)者在邊緣端運(yùn)行大模型時(shí),大多依賴vLLM 或 HuggingFace 的 Python Pipeline。然而,在機(jī)器人控制回路中,Python的局限性十分明顯。一方面,其本身依賴環(huán)境龐大,系統(tǒng)鏡像臃腫,OTA升級(jí)風(fēng)險(xiǎn)極高。另一方面,GIL(全局解釋器鎖)讓多線程受阻,多核CPU 無(wú)法充分發(fā)揮;回收機(jī)制的不確定性導(dǎo)致在關(guān)鍵時(shí)刻暫停主線程。
想象一下,機(jī)器人正在做動(dòng)態(tài)平衡時(shí),Python VM突然停頓50ms,結(jié)果就是機(jī)器人直接跌倒。
NVIDIA這次更新的JetPack 7.1中的TensorRT Edge-LLM,從根本上解決了這些問(wèn)題。作為開(kāi)源的C++工具包,其專門(mén)用于在嵌入式平臺(tái)(如 Jetson Thor / T4000)上高效推理大型語(yǔ)言模型(LLM)和視覺(jué)語(yǔ)言模型(VLM),并優(yōu)化邊緣推理性能。
TensorRT Edge-LLM通過(guò)C++直接管理內(nèi)存池和線程調(diào)度,移除了Python解釋器開(kāi)銷,實(shí)現(xiàn)了確定性延遲,使大模型推理能夠安全地融入1kHz的實(shí)時(shí)控制循環(huán)。
更重要的是,其原生支持FP8、NVFP4 和INT4精度量化,開(kāi)發(fā)者只需將 PyTorch模型導(dǎo)出為 ONNX,再用TensorRT優(yōu)化生成 Engine,即可在C++中直接調(diào)用。
官方數(shù)據(jù)顯示,在運(yùn)行Qwen3系列模型時(shí),EdgeLLM相比Python環(huán)境下的 vLLM,不僅生成速度更快、更穩(wěn)定,而且顯著降低 CPU 占用率,為SLAM、狀態(tài)估計(jì)等關(guān)鍵任務(wù)釋放了寶貴資源。
在視頻處理方面,JetPack 7.1 同樣帶來(lái)重要改進(jìn)。
NVIDIA在Jetson Thor平臺(tái)上統(tǒng)一了Video Codec SDK,提供與服務(wù)器級(jí)GPU(H100、L40)一致的API體驗(yàn)。對(duì)于遠(yuǎn)程操控和機(jī)器人感知,CABR(Content Adaptive Bit Rate)工作流尤為關(guān)鍵。系統(tǒng)可以根據(jù)畫(huà)面復(fù)雜度動(dòng)態(tài)調(diào)節(jié)碼率——畫(huà)面靜止時(shí)降低碼率,運(yùn)動(dòng)劇烈時(shí)快速提升碼率,從而在 WiFi或5G等帶寬波動(dòng)環(huán)境下保持畫(huà)面流暢。
此外,Video Codec SDK支持ROI編碼和自適應(yīng)量化(AQ),可以將更多算力分配給關(guān)鍵區(qū)域(如機(jī)械臂末端或行人面部),從而實(shí)現(xiàn)更精細(xì)的視頻控制。對(duì)于非實(shí)時(shí)的離線任務(wù),NVIDIA 還提供PyNvVideoCodec的 Python 封裝,底層依然調(diào)用C++核心,性能接近原生。
這些軟件能力的硬件基礎(chǔ)是Jetson Thor系列。結(jié)合TensorRT EdgeLLM與Video Codec SDK,開(kāi)發(fā)者可以在邊緣端實(shí)現(xiàn)從大模型推理到視頻感知的全流程優(yōu)化,顯著提升邊緣機(jī)器人的可靠性和安全性。
具身智能走進(jìn)“考場(chǎng)” 破除Sim-to-Real評(píng)估難題
有了強(qiáng)大的邊緣算力和實(shí)時(shí)的軟件棧,具身智能領(lǐng)域面臨的下一個(gè)核心挑戰(zhàn)是:如何科學(xué)地評(píng)估機(jī)器人的“聰明”程度?
當(dāng)前,機(jī)器人訓(xùn)練面臨的最大危機(jī)在于“過(guò)擬合”問(wèn)題。就比如,機(jī)器人在特定光照和特定桌面上表現(xiàn)完美,但一旦環(huán)境改變就會(huì)出BUG。
為了解決這一難題,NVIDIA 更新了Isaac Lab-Arena。這是一套簡(jiǎn)化通用機(jī)器人策略(Generalist Robot Policy)評(píng)估的開(kāi)源框架,實(shí)質(zhì)上是為機(jī)器人建立可復(fù)用、可擴(kuò)展的標(biāo)準(zhǔn)化“工業(yè)級(jí)制度”。
與此同時(shí),配合云原生編排框架 NVIDIA OSMO,開(kāi)發(fā)者可將工作流從單一工作站無(wú)縫擴(kuò)展至混合云,徹底打通了從數(shù)據(jù)生成到模型評(píng)估的“任督二脈”。
傳統(tǒng)仿真環(huán)境的構(gòu)建往往繁瑣、昂貴且難以復(fù)用,而Isaac Lab-Arena通過(guò)“從0到1”的模塊化,采用類似樂(lè)高積木的方式,將仿真環(huán)境拆解為四個(gè)獨(dú)立組件:物體(Object)、場(chǎng)景(Scene)、機(jī)器人本體(Embodiment)以及任務(wù)邏輯(Task Logic)。
同時(shí),Isaac Lab-Arena引入了標(biāo)準(zhǔn)化的可供性系統(tǒng)(Affordance System),將交互屬性(按鈕、旋鈕),從具體物體中剝離出來(lái),使任務(wù)邏輯可以跨物體復(fù)用,不再受限于單一模型。
在此基礎(chǔ)上,Isaac Lab-Arena支持高度自動(dòng)化的多樣性生成。開(kāi)發(fā)者只需定義一次任務(wù)邏輯,就可以自由組合不同組件,實(shí)現(xiàn)任務(wù)的隨意遷移和混搭。
例如,一個(gè)標(biāo)準(zhǔn)的拾取任務(wù)可以從家庭場(chǎng)景無(wú)縫切換到工業(yè)場(chǎng)景,無(wú)需重寫(xiě)任何代碼。同時(shí),這種機(jī)制支持大規(guī)模參數(shù)變化,從物體重量、摩擦系數(shù)到關(guān)節(jié)剛度,都可以在仿真中靈活調(diào)整,為通用型策略訓(xùn)練提供了極其豐富的數(shù)據(jù)。
從細(xì)節(jié)來(lái)看,Isaac Lab-Arena的核心價(jià)值在于充分利用GPU的大規(guī)模并行能力,實(shí)現(xiàn)高吞吐量。在數(shù)千個(gè)并行環(huán)境中,Isaac Lab-Arena可以對(duì)參數(shù)進(jìn)行微調(diào)與擾動(dòng),例如模擬摩擦力、物體質(zhì)量或光照的微小差異,從而精確評(píng)估模型在現(xiàn)實(shí)物理世界中的魯棒性。
更重要的是,Isaac Lab-Arena不光是單純的評(píng)估工具,其與Isaac Lab-Teleop和Isaac Lab-Mimic緊密集成,形成從合成數(shù)據(jù)生成、模型訓(xùn)練到訓(xùn)練后評(píng)估的全流程閉環(huán)。無(wú)論是經(jīng)過(guò)微調(diào)的模型,還是Isaac GR00T N、pi0、SmolVLA等基礎(chǔ)模型,都可以在統(tǒng)一標(biāo)準(zhǔn)下進(jìn)行科學(xué)打分,為通用的驗(yàn)證提供可靠依據(jù)。
事實(shí)上,目前Isaac Lab-Arena已經(jīng)成為開(kāi)源社區(qū)共享的統(tǒng)一核心平臺(tái)之一。合作伙伴L(zhǎng)ightwheel已利用該框架開(kāi)發(fā)并開(kāi)源了超過(guò)250個(gè)任務(wù),包括RoboCasa和LIBERO 任務(wù)套件,并正在聯(lián)合開(kāi)發(fā)代表復(fù)雜現(xiàn)實(shí)世界挑戰(zhàn)的工業(yè)基準(zhǔn)RoboFinals。
此外Isaac Lab-Arena環(huán)境還已正式接入Hugging Face LeRobot Environment Hub,開(kāi)發(fā)者可以下載獲取經(jīng)過(guò)Sim-to-Real驗(yàn)證的SOTA環(huán)境,對(duì)自己的機(jī)器人模型進(jìn)行標(biāo)準(zhǔn)化測(cè)試。
RoboTwin也正借助 Arena構(gòu)建其2.0版本的大規(guī)模具身仿真基準(zhǔn),NVIDIA GEAR Lab與 Seattle Robotics Lab(SRL)也在使用Isaac Lab-Arena對(duì)視覺(jué)語(yǔ)言動(dòng)作模型(VLA)進(jìn)行大規(guī)模推理與技能評(píng)估。
從開(kāi)源社區(qū)到行業(yè)落地物理 AI生態(tài)加速擴(kuò)展
從整體生態(tài)視角來(lái)看,NVIDIA 正在系統(tǒng)性地構(gòu)建以“物理 AI”為核心、覆蓋機(jī)器人全生命周期的開(kāi)放型產(chǎn)業(yè)生態(tài),而這一生態(tài)則是通過(guò)軟硬件平臺(tái)、開(kāi)發(fā)者社區(qū)、行業(yè)伙伴和應(yīng)用場(chǎng)景的深度耦合,實(shí)現(xiàn)跨行業(yè)、跨階段的協(xié)同演進(jìn)。
在機(jī)器人基礎(chǔ)能力層面,F(xiàn)ranka Robotics、NEURA Robotics、Humanoid等企業(yè)正在利用NVIDIA Isaac GR00T賦能的工作流,對(duì)機(jī)器人新行為進(jìn)行仿真、訓(xùn)練和驗(yàn)證,形成從虛擬世界到現(xiàn)實(shí)部署的高效閉環(huán)。
與此同時(shí),Boston Dynamics、Caterpillar、LG Electronics等全球頭部廠商,也在 NVIDIA 機(jī)器人開(kāi)發(fā)棧的支撐下,持續(xù)推出具備更強(qiáng)感知、推理和操作能力的AI驅(qū)動(dòng)型機(jī)器人產(chǎn)品,推動(dòng)工業(yè)、物流、家庭等場(chǎng)景的智能化升級(jí)。
在行業(yè)應(yīng)用生態(tài)中,NVIDIA的技術(shù)棧正深度嵌入企業(yè)級(jí)工作流與垂直領(lǐng)域解決方案。
例如,Salesforce 將Agentforce、Cosmos Reason以及基于 NVIDIA Blueprint 的視頻搜索與總結(jié)能力引入機(jī)器人視頻分析,實(shí)現(xiàn)了對(duì)機(jī)器人采集數(shù)據(jù)的高價(jià)值挖掘,同時(shí)將時(shí)間顯著壓縮,體現(xiàn)了機(jī)器人數(shù)據(jù)與企業(yè)AI系統(tǒng)融合后的商業(yè)價(jià)值。
在醫(yī)療機(jī)器人領(lǐng)域,LEM Surgical借助NVIDIA Isaac for Healthcare與Cosmos Transfer 訓(xùn)練Dynamis手術(shù)機(jī)器人,并結(jié)合Jetson Thor與Holoscan構(gòu)建高可靠實(shí)時(shí)計(jì)算平臺(tái);XRLabs 則以外置手術(shù)內(nèi)窺鏡為切入點(diǎn),通過(guò)Jetson Thor與Isaac for Healthcare 提供的實(shí)時(shí)AI分析能力,為外科醫(yī)生提供精準(zhǔn)的術(shù)中引導(dǎo),進(jìn)一步拓展了機(jī)器人在高風(fēng)險(xiǎn)、高精度場(chǎng)景下的應(yīng)用邊界。
在開(kāi)發(fā)者與開(kāi)源生態(tài)層面,NVIDIA與 Hugging Face深度合作。
隨著機(jī)器人成為 Hugging Face 平臺(tái)上增長(zhǎng)最快的領(lǐng)域之一,NVIDIA將開(kāi)源的技術(shù)集成至LeRobot框架,把模型、數(shù)據(jù)集、仿真環(huán)境與評(píng)測(cè)工具統(tǒng)一到標(biāo)準(zhǔn)化開(kāi)發(fā)體系中,使開(kāi)發(fā)者能夠以更低門(mén)檻完成從算法微調(diào)到系統(tǒng)驗(yàn)證的端到端流程。
目前,GR00T N系列模型與Isaac Lab-Arena在LeRobot中的上線,Hugging Face 開(kāi)源的Reachy 2、Reachy Mini也與Jetson Thor、DGX Spark的完全互操作,強(qiáng)化了“模型即能力”的生態(tài)共識(shí),也連接了NVIDIA 數(shù)百萬(wàn)機(jī)器人開(kāi)發(fā)者與Hugging Face超過(guò)千萬(wàn)的全球 AI 開(kāi)發(fā)者,形成規(guī)?;瘎?chuàng)新的網(wǎng)絡(luò)效應(yīng)。
在算力與硬件底座層面,Jetson Thor與IGX Thor構(gòu)成了支撐這一生態(tài)的關(guān)鍵基礎(chǔ)設(shè)施。Jetson Thor面向具備復(fù)雜推理需求的人形機(jī)器人,為其導(dǎo)航、操作與多模態(tài)理解提供高密度算力支持,已被 NEURA Robotics、Humanoid、Richtech Robotics、智元機(jī)器人 等廠商用于新一代人形機(jī)器人與仿真平臺(tái)。
而面向工業(yè)邊緣的IGX Thor,則在功能安全與企業(yè)級(jí)軟件支持下,將機(jī)器人與AI能力擴(kuò)展至航空、制造與重工業(yè)場(chǎng)景,Archer、Caterpillar 及 AAEON、Advantech、ADLINK 等生態(tài)伙伴的加入,也進(jìn)一步夯實(shí)了從芯片、系統(tǒng)到行業(yè)解決方案的完整產(chǎn)業(yè)鏈。
寫(xiě)在最后——當(dāng)“看門(mén)狗”走進(jìn)“世界”
在這之前,作為曾經(jīng)長(zhǎng)期和寄存器、ISR(中斷服務(wù)程序)以及實(shí)時(shí)操作系統(tǒng)(RTOS)打交道的嵌入式開(kāi)發(fā)者,看完這場(chǎng)Keynote,感受到了久違的“心有靈犀”。
在很長(zhǎng)一段時(shí)間里,我們對(duì)“AI上端側(cè)”其實(shí)是持保留態(tài)度的。為什么?
因?yàn)榇a必須是確定性的。我們習(xí)慣了計(jì)算每個(gè)時(shí)鐘周期,習(xí)慣了配置硬件看門(mén)狗(Watch dog)來(lái)防止系統(tǒng)跑飛。
但NVIDIA這次發(fā)布的組合拳,讓我們看到了一個(gè)重要的信號(hào)——AI終于開(kāi)始懂得“嵌入式的規(guī)矩”了。
這次更新,有幾點(diǎn)最深刻的“體感”。
第一,是“物理直覺(jué)”終于變得可計(jì)算了。以前做柔性物體抓取(比如抓個(gè)裝水的袋子),在Simulink里調(diào)PID調(diào)到崩潰也很難解決流體晃動(dòng)帶來(lái)的重心偏移。而Cosmos Predict展示的能力,實(shí)際上不需要解算納維斯托克斯方程,就能像人一樣預(yù)判“這水要灑”。
所以現(xiàn)在,工程開(kāi)發(fā)的重點(diǎn),就可以從“如何精確建?!鞭D(zhuǎn)向“如何讓模型學(xué)會(huì)泛化”。
第二,Jetson Thor太讓人興奮了。配合內(nèi)存(Unified Memory),以及高配版T5000的2070TFLOPS算力輸出,能在不頻繁訪問(wèn)外存、不燒穿功耗墻(70W對(duì)移動(dòng)機(jī)器人來(lái)說(shuō)是黃金甜點(diǎn))的前提下,把原本只能塞進(jìn)服務(wù)器機(jī)房的70B大模型,塞進(jìn)了邊緣計(jì)算單元里。這里建議大家都買一臺(tái)試試。
第三,邊緣端終于有了“敢上實(shí)戰(zhàn)”的底氣了。JetPack 7.1把Edge-LLM全部C++化,配合JetsonThor的FP4精度,意味著我們終于可以把VLM(視覺(jué)語(yǔ)言模型)真正當(dāng)作機(jī)器人的“小腦”,而不是掛在云端的一個(gè)延遲巨大的“大腦”上。這種“確定性的低延遲”,比單純的TOPS更有誘惑力。
事實(shí)上,所謂的“物理AI”時(shí)代,并不是要拋棄傳統(tǒng)的智慧,反而是對(duì)它的最高致敬。它標(biāo)志著具身智能從“Demo玩具”正式邁向了“工具”。
從遠(yuǎn)景看,未來(lái)的機(jī)器人開(kāi)發(fā),門(mén)檻看似變低了(不用手寫(xiě)復(fù)雜的算法),實(shí)則變高了(需要駕馭數(shù)據(jù)飛輪和世界模型)。
但是,這也正是物理AI真正迷人的地方!
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




