下載客戶端

登錄

NVIDIA Nemotron 3系列開放模型：擊穿AI“工程墻”開啟“Agentic AI”的

2025-12-18 12:12

來源：澎湃新聞·澎湃號·湃客

作者：毛爍

2025年，全球AI產(chǎn)業(yè)來到了微妙的“分水嶺”。

這一年，推理模型（Reasoning Models）的崛起，驗證了OpenAI曾隱晦指出的方向——測試時算力（Test-Time Compute）是繼預訓練參數(shù)量、訓練數(shù)據(jù)量之后的“第三種 Scaling Law”。

即通過讓模型在輸出結果前進行“長思考（Long Thinking）”，利用思維鏈（CoT）和強化學習（RL）進行自我博弈，AI可以在參數(shù)量不變的情況下，獲得更高的智能密度。

然而，當工程界“長思考”范式從實驗室搬進企業(yè)級多智能體（Agentic AI）系統(tǒng)時，卻結結實實地撞上了三面厚重的“工程墻”。

01 Agentic AI撞上三面“工程墻”

第一面是“記憶邊際的成本墻”。如今的智能體已不再停留在Chatbot形態(tài)，更多的是逐漸作為企業(yè)的數(shù)字員工存在，需要長期處理橫跨數(shù)月的項目日志、數(shù)百萬行的代碼庫，甚至復雜的法律卷宗。

然而，在傳統(tǒng)的Transformer架構下，KV Cache（鍵值緩存）的顯存占用，隨著序列長度呈二次方（線性優(yōu)化后依然龐大）增長。這對于超大規(guī)模的Token中尋找更優(yōu)解的Agent而言，單純的Attention機制意味著更高的顯存開銷和推理延遲。

第二面是“專家的‘貧富差距’墻”。為在擴大模型參數(shù)規(guī)模的同時控制計算成本，MoE（混合專家模型）逐漸成為主流選擇。然而，在分布式推理場景中，現(xiàn)有的MoE架構普遍面臨“專家負載不均（Expert Collapse）”的問題。

理論上，MoE依賴路由器（Router）把不同token分散到不同專家（Expert），以提升吞吐、降低成本。但在實際訓練和推理中，由于路由偏置的自強化，讓被頻繁選中的專家更快收斂、表現(xiàn)更好，于是更容易在下一輪被路由命中，形成正反饋。

但是，在真實業(yè)務中的token并不均勻（例如代碼、公式、特定領域文本），路由器自然會把這些高頻模式集中送往少數(shù)專家。

具體來說，在分布式推理中，專家通常綁定在特定GPU或節(jié)點上，一旦熱門專家達到容量上限，其它token就只能排隊等待，無法被“動態(tài)轉移”。久而久之，MoE 不再是“多專家并行”，而是隱性退化為幾個專家在獨立承擔大部分計算。同時，專家之間的數(shù)據(jù)路由也帶來了巨大的通信開銷（Communication Overhead），這在追求低延遲的Agent交互中是較為嚴重的消耗。

（兩個請求token激活了模型的不同部分，需要加載更多權重，導致內(nèi)存帶寬飽和）

截取自：論文《MoE Inference Economics from First Principles》

（基于特定數(shù)據(jù)集的經(jīng)驗觀察，專家使用情況的分布不均勻）

截取自：SGLang報告

第三面是“企業(yè)信任的黑盒墻”。閉源模型的性能優(yōu)勢，并不足以抵消其在核心業(yè)務場景中的不透明性風險。當其被引入金融、醫(yī)療、研發(fā)等核心場景時，問題便不再只是“好不好用”，而是“敢不敢用”。訓練數(shù)據(jù)的不透明、對敏感信息記憶風險的不確定，以及安全邊界難以審計，使得“黑盒”模型在企業(yè)級部署中，正從技術更優(yōu)解，演變?yōu)樾湃纬杀靖叩倪x項。

這三面“工程墻”，并非理論的缺陷，在既有范式下，通過堆疊參數(shù)、拉長上下文，雖然能帶來性能提升，但在長期運行、系統(tǒng)延遲和可審計性等企業(yè)級要求面前，其工程代價正在顯著放大，逐漸暴露出可擴展性的瓶頸。

這也意味著，如今的問題，已不再只是模型是否足夠“聰明”，而是底層架構是否具備支撐企業(yè)級智能體持續(xù)運轉的工程彈性。

也正是在這一背景下，NVIDIA在12月15日，發(fā)布了NVIDIA Nemotron 3系列(以下簡稱“Nemotron 3”)開放模型、數(shù)據(jù)和庫，通過Hybrid Mamba-Transformer MoE和Latent MoE等創(chuàng)新架構設計，在系統(tǒng)層面同時回應記憶、負載與信任三重挑戰(zhàn)，為“Agentic AI”時代的智能體系統(tǒng)提供了新的工程范式。

NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示：“開放創(chuàng)新是AI進步的基礎。通過 Nemotron，我們將先進 AI轉化成開放平臺，為開發(fā)者提供構建大規(guī)模代理式系統(tǒng)所需的透明度與效率?！?/p>

02 NVIDIA Nemotron 3擊穿Transformer“不可能三角”

Nemotron 3系列開放模型的核心突破，在于其對主流計算范式的解構與重組。

在長文本推理中，業(yè)界長期受困于Transformer 的“不可能三角”——長上下文、低顯存占用、高推理精度。

坦白來說，Transformer的核心是——自注意力機制（Self-Attention），雖然在捕捉全局依賴和復雜邏輯上無出其右，但其計算復雜度和內(nèi)存占用是其“短板”。而基于狀態(tài)空間模型 SSM——Mamba則具有線性的復雜度，擅長以較低的內(nèi)存開銷，處理超長序列。就像高效的流水線工人，可以不知疲倦地處理數(shù)百萬Token的輸入流。

而反觀NVIDIA的策略，則是“取長補短”，即Nemotron 3創(chuàng)造性地采用Hybrid Mamba-Transformer MoE架構。

Mamba層可以理解為“長跑運動員”。模型的“主干”大量采用了Mamba層。在處理長文檔、歷史記錄等海量上下文時，Mamba負責信息的壓縮與傳遞，確保KV Cache和 SSM Cache 的增長保持在極低水平。這使得Nemotron 3 能夠原生支持 1M（100萬）Context Window，且顯存占用極低。

Transformer層可以看作“精算師”。在Mamba層之間，交錯插入Transformer Attention 層。這些層被戰(zhàn)略性地部署在關鍵位置，負責處理需要高強度邏輯推演、代碼生成、復雜數(shù)學證明等“高光環(huán)節(jié)”。

這一設計帶來的效率提升無疑是顛覆級的。相較于純Transformer架構，Nemotron 3 Nano在保持30B參數(shù)規(guī)模（3B 激活參數(shù)）的同時，其緩存使用效率顯著提升。這意味著在同等硬件（如單張 L40S）上，企業(yè)可以運行更深、更長上下文的Agent。

截取自NVIDIA官網(wǎng)

如果說混合架構仍屬于“戰(zhàn)術層面的創(chuàng)新”，那么Nemotron 3在模型規(guī)模與架構層面的整體設計，則更是面向Agentic AI的系統(tǒng)性重構。

Nemotron 3提供Nano、Super與Ultra三種規(guī)模，面向多智能體系統(tǒng)在真實生產(chǎn)環(huán)境中的吞吐、穩(wěn)定性與可擴展性需求而設計。

Nemotron 3 Nano具備 300 億參數(shù)的小型模型，每次運行最多激活30億參數(shù)，適用于針對性、高效的任務。

Nemotron 3 Super具備約1000 億參數(shù)的高精度推理模型，每個token最多激活 100 億參數(shù)，適用于多智能體應用。

Nemotron 3 Ultra具備約 5,000 億參數(shù)的大型推理引擎，每個token最多激活 500 億參數(shù)，適用于復雜的 AI 應用

其中，Nemotron 3 Nano的推理吞吐量已較Nemotron 2 Nano 提升約4 倍。

截取自NVIDIA官網(wǎng)

截取自NVIDIA官網(wǎng)

然而，真正體現(xiàn)其戰(zhàn)略的是，在Nemotron 3中引入的突破性的異構潛在混合專家 (MoE) 架構，則是不折不扣的“戰(zhàn)略武器”。

Nemotron 3 混合架構（截取自NVIDIA官網(wǎng)）

傳統(tǒng)的MoE架構在Token層面進行路由（Token Routing）。每個Token在經(jīng)過每層時，都需要在成百上千個專家中進行選擇。在分布式系統(tǒng)中，這意味著海量的數(shù)據(jù)需要在不同的 GPU顯存之間頻繁搬運，導致通信帶寬成為瓶頸（Memory Bandwidth Bound）。

Latent MoE 引入了“潛在表示論”，其工作流程堪稱對數(shù)據(jù)的“空間折疊”：

首先，在投影（Projection）階段，輸入的Token向量被映射到維度更低的潛在空間；隨后，在這一壓縮后的低維空間中，路由器（Router）完成專家的選擇與計算，實現(xiàn)隱式路由；最后，計算結果再通過投影層還原回原始維度，回到主干網(wǎng)絡。

這一方法允許模型在相同計算成本（FLOPs）下，調用4倍數(shù)量的專家。相當于在原本擁堵的城市地面交通之外，新增了一條地下高速通道，顯著緩解了大規(guī)模集群中 All-to-All通信帶來的壓力。

在推理解碼端，Nemotron 3 引入了多Token預測（MTP）技術，允許模型在一次前向傳播中預測未來的多個Token，顯著提升推測性解碼的接受率。

更為關鍵的是底層精度的突破。Nemotron 3 Super和Nemotron 3 Ultra直接采用 NVFP4（4位浮點格式）進行預訓練。NVIDIA為此設計了更新的NVFP4算法，并在25T Token的內(nèi)部數(shù)據(jù)集上進行了穩(wěn)定性測試，確保在4-bit精度下訓練依然穩(wěn)定收斂。

這種原生低精度訓練，使得其在Blackwell架構上，訓練和推理的吞吐量將獲得硬件級的原生加速，且沒有“訓練后量化（PTQ）”的精度損失。

03 “黑盒”變“白盒” NVIDIA開啟Agent“功能性”范式遷徙

如果說架構決定了模型的上限，那么數(shù)據(jù)則決定了模型的實際可用性。NVIDIA在 Nemotron 3的創(chuàng)新上展示了其對功能性正確性（Functional Correctness）的極致追求，并推出了一整套“Nemotron Agentic Safety Dataset”的數(shù)據(jù)資產(chǎn)。

坦白講，OpenAI證明了RL在推理中的核心作用，而NVIDIA 則通過開源NeMo Gym將這一過程標準化。

NeMo Gym是專為構建和擴展強化學習環(huán)境的開源庫，不僅支持傳統(tǒng)的 RLHF，更引入了NeMo RL庫，支持在多種環(huán)境中對模型進行后訓練。

NVIDIA此次特別發(fā)布了10個Gym環(huán)境（Gym Environments），用于訓練模型生成正確的工具調用、編寫功能性代碼或生成滿足可驗證標準的多步驟計劃。結合 NeMo Evaluator，開發(fā)團隊可以自動化地驗證模型的安全性與性能。

工具鏈與訓練環(huán)境只是前提，真正決定模型能力上限與安全邊界的，仍然是數(shù)據(jù)本身。然而，在當前的開源生態(tài)中，長期存在“只開權重、不開數(shù)據(jù)”的結構性缺口。也正因如此，NVIDIA此次選擇了近乎“顛覆性”的開放方式。

具體而言，其一是3T Token預訓練數(shù)據(jù)。NVIDIA發(fā)布了全新3萬億Token規(guī)模的預訓練數(shù)據(jù)集，重點覆蓋代碼、數(shù)學與推理等高價值領域，并通過合成增強與系統(tǒng)化標注管道進行質量強化，為推理模型提供更高密度的基礎語料。

其二是18M 訓練后樣本（Post-training Samples）。規(guī)模約1300萬樣本的訓練后語料庫，用于監(jiān)督微調（SFT）與強化學習階段，且直接支持Nemotron 3 Nano 的對齊與能力收斂。

其三是Nemotron智能體安全數(shù)據(jù)集。包含近11000條真實AI智能體工作流，用于緩解多智能體系統(tǒng)在真實運行中可能出現(xiàn)的新型安全風險。

此外，NVIDIA還同步開源了Data Designer工具，幫助開發(fā)者構建、處理并管理自有數(shù)據(jù)集。通過該工具鏈，開發(fā)者不僅能夠復現(xiàn)實驗結果，還可以在 GitHub 代碼庫中直接訪問完整的訓練方案（Recipes）、分詞器配置與長上下文設置，使 Nemotron 3 從“可用模型”，轉變?yōu)楦叨韧该鳌⒖蓪徲?、可復現(xiàn)的“白盒平臺”。

截取自NVIDIA官網(wǎng)

04 激發(fā)“飛輪效應”NVIDIA生態(tài)疆域不斷拓展

如果說Nemotron 3 Nano證明了NVIDIA在模型效率與工程可用性上的極限能力，那么真正讓這一模型體系產(chǎn)生“外溢效應”的，則是其被快速吸納進真實產(chǎn)業(yè)生態(tài)的能力。

從開發(fā)者工具鏈、推理引擎支持，到企業(yè)級平臺、云基礎設施與主權AI，NVIDIA圍繞Nemotron 3構建起了覆蓋初創(chuàng)公司、企業(yè)與主權AI體系的Agentic AI網(wǎng)絡。

Agentic AI的創(chuàng)新應用并不僅產(chǎn)生在大型企業(yè)內(nèi)部，更在初創(chuàng)公司與研究型團隊之中產(chǎn)生。在這一層面，General Catalyst與Mayfield 旗下的多家投資組合公司，已開始基于 Nemotron 3 探索面向人機協(xié)作的AI Agent應用形態(tài)。

Mayfield管理合伙人Navin Chaddha 指出，NVIDIA的開放模型堆棧與初創(chuàng)加速計劃，使初創(chuàng)團隊能夠在模型、工具與基礎設施層面以更低成本完成試驗、形成差異化，并加速規(guī)?；涞?。

在企業(yè)級場景中，Nemotron3 的價值進一步顯現(xiàn)。其早期用戶已覆蓋咨詢、軟件、制造、安全與云計算等多個關鍵行業(yè)，包括埃森哲、Cadence、CrowdStrike、德勤、安永、Oracle、ServiceNow、西門子、新思科技與Zoom等。

在具體落地案例中，相關企業(yè)已將Nemotron 3 嵌入自身的核心業(yè)務系統(tǒng)之中：

ServiceNow將Nemotron 3 與其智能工作流平臺結合，發(fā)布了重新訓練的推理模型 “April”，用于企業(yè)級自動化決策。

CrowdStrike基于Nemotron 構建了安全運營智能體“Charlotte AI”，以釋放其安全數(shù)據(jù)的推理價值。

Perplexity通過智能體路由機制，將工作負載定向至Nemotron 3 Ultra 等高性價比模型，以優(yōu)化Token經(jīng)濟結構。

在主權AI層面，英國UK-LLM 使用Nemotron數(shù)據(jù)集進行威爾士語訓練，展示了其在多語言與本地化AI體系建設中的潛力。

為了進一步降低使用門檻，NVIDIA還將Nemotron 3快速推向主流云與推理生態(tài)。

在推理服務側，Hugging Face、Baseten、Fireworks、Together AI、OpenRouter等平臺已率先上線 Nemotron 3 Nano，使開發(fā)者能夠以API方式直接調用模型能力。

在企業(yè)級平臺層面，Couchbase、DataRobot、H2O.ai、JFrog、UiPath 等也已完成集成，將Nemotron 3納入既有數(shù)據(jù)、MLOps與自動化工作流之中。

在云基礎設施層，NVIDIA同樣選擇了“先鋪路、再放量”的策略。Nemotron 3 Nano已通過Amazon Bedrock以無服務器方式對外提供，并計劃陸續(xù)登陸Google Cloud、Microsoft Foundry、CoreWeave 等云平臺，使模型能夠在不同算力與合規(guī)環(huán)境下靈活部署。

與此同時，NVIDIA還同步啟動了 “Nemotron 模型推理挑戰(zhàn)賽”，鼓勵開發(fā)者社區(qū)基于其開放模型與數(shù)據(jù)集，進一步探索推理能力與多智能體系統(tǒng)的邊界。

NVIDIA方面透露，Nemotron 3 Super和 Ultra預計將于2026年上半年推出。

05 寫在最后

Nemotron 3的推出，或許意味著開源大模型進入了下一個“Linux 時刻”。

如果在2023 年，開源模型還在努力模仿 GPT-3.5 的“對話能力”；那么現(xiàn)在，以Nemotron 3為代表的新一代開源模型，已經(jīng)開始在架構層面針對Agentic AI 的核心痛點——無限記憶、極速推理、工具調用——進行原生的“基因改造”。

混合Mamba-Transformer架構的落地，證明了Transforme并非AI的終局；Latent MoE 的引入，展示了算力效率挖掘的深邃潛力。更重要的是，NVIDIA這一次不僅給出了“魚”（模型權重），更給出了“漁網(wǎng)”和“海圖”（全棧數(shù)據(jù)與訓練方案）。這種“白盒化”，為全球AI行業(yè)提供了一套關于如何構建企業(yè)級智能體的標準范式。

對于開發(fā)者而言，Nemotron 3不再是需要費力調優(yōu)的半成品，而對于NVIDIA自身而言，這不僅是對 Blackwell 硬件的護航，更是其在應用層與算力層之間，定義的“中間件”標準。

當“長思考”不再受限于顯存墻，當“黑盒”逐漸透明，2026年的AI賽道，或許將不再熱衷于刷榜，而將爆發(fā)于能夠產(chǎn)生復利的業(yè)務場景深處。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#NVIDIA