下載客戶端

登錄

DeepSeek V4讀秒：Kimi 游向淺灘，智譜借殼暖春

2026-01-23 15:38

來源：澎湃新聞·澎湃號(hào)·湃客

在 DeepSeek-R1 發(fā)布一周年之際，《新立場(chǎng)》注意到，DeepSeek 在 GitHub 上更新了大量FlashMLA代碼。在114個(gè)文件中，一個(gè)標(biāo)有“MODEL1”的未知大型模型標(biāo)識(shí)符出現(xiàn)了28次。

該標(biāo)識(shí)符與現(xiàn)有模型“V32”（DeepSeek-V3.2）一起提及并明確區(qū)分。根據(jù)對(duì)代碼的上下文分析，“MODEL1”被廣泛認(rèn)為代表了建立在不同架構(gòu)上的新模型，而不是當(dāng)前一代的次要迭代。

1月21日，更多的信號(hào)浮出水面。多方消息源指出，DeepSeek可能會(huì)在2月中旬農(nóng)歷新年期間推出其下一代旗艦人工智能模型 DeepSeek V4，新模型伴隨針對(duì)KV緩存的新優(yōu)化，且有望提供顯著增強(qiáng)的編碼能力。這意味著，DeepSeek 正試圖在算力效率與編碼能力上，再次拉高行業(yè)的“及格線”。

這種技術(shù)上的步步緊逼，讓2023年那個(gè)熱錢涌動(dòng)的“鍍金時(shí)代”顯得尤為遙遠(yuǎn)。

彼時(shí)，以智譜（GLM）、月之暗面（Kimi）為代表的“六小龍”正如日中天。憑借著“中國版 OpenAI”的技術(shù)敘事

和先發(fā)優(yōu)勢(shì)，智譜在一年內(nèi)市值翻了三倍，月之暗面更是完成了 4 輪融資，以 33 億美元的估值站在了聚光燈的中心。那時(shí)的市場(chǎng)相信，只要遵循“Scaling Law”堆砌算力和參數(shù)，就能跑出下一個(gè)巨頭。

2025年1月20日，DeepSeek-R1 的發(fā)布成為了一道分水嶺。其以一種極其極客、甚至有些“反商業(yè)”的姿態(tài)——開源、低成本、高性能，瞬間抹平了“六小龍”積攢了兩年的先發(fā)壁壘。不僅大廠感到錯(cuò)愕，創(chuàng)業(yè)公司的護(hù)城河也一夜干涸。

DeepSeek 僅用了半年時(shí)間，就用極致的擴(kuò)展效率擊穿了行業(yè)虛高的估值泡沫。對(duì)于創(chuàng)業(yè)者而言，通用的路被堵死了，資本的耐心也隨之耗盡。

但巨鯨沒有胃口吞下所有浮游生物。其轉(zhuǎn)身給應(yīng)用層留下了最后一口氧氣。

隨著下半年 DeepSeek 進(jìn)入“刻意”的低調(diào)期，以及大廠生態(tài)競爭的白熱化，處于夾縫中的“六小龍”反而在絕境中找到了一種 "Product-Market Fit by Default"（被迫的市場(chǎng)匹配），即放棄對(duì)“全知全能”通用大模型的執(zhí)念，轉(zhuǎn)而將Context極度聚焦，深耕特色垂直場(chǎng)景。

如今，AI 行業(yè)從“百模大戰(zhàn)”進(jìn)入了“階級(jí)固化”階段。DeepSeek 負(fù)責(zé)定義智能的上限，不斷拓展技術(shù)的邊界；而“六小龍”們則退守垂類，負(fù)責(zé)填充商業(yè)的下限，在具體的業(yè)務(wù)流中尋找生存的縫隙。

海嘯過后的幸存者名單

2024年前8個(gè)月，全球 AIGC 領(lǐng)域發(fā)生了 107 起融資事件，國內(nèi)大模型賽道更是吸金無數(shù)，億元級(jí)別的融資案高達(dá) 20 起。零一萬物、百川智能、智譜 AI、階躍星辰、月之暗面與 MiniMax，這些名字開始頻繁出現(xiàn)在科技媒體的頭條，被合并稱作“AI六小龍”。來自國際戰(zhàn)投與東南亞財(cái)團(tuán)的資金，似乎在印證著這個(gè)賽道不可限量的未來。

而在那場(chǎng)資本狂歡中，月之暗面無疑是最耀眼的明星。

不同于“國家隊(duì)”智譜在 B 端的穩(wěn)扎穩(wěn)打，楊植麟堅(jiān)定地押注了 To C 賽道，試圖用“技術(shù)+產(chǎn)品”的雙輪驅(qū)動(dòng)復(fù)刻移動(dòng)互聯(lián)網(wǎng)的奇跡。紅杉、小紅書、美團(tuán)、阿里等巨頭爭相入局，將這家成立不到一年半的公司推向了估值高地。2024 年 2 月，Kimi 的月活用戶數(shù)逼近 300 萬，是兩個(gè)月前的 6 倍。

QuestMobile 的數(shù)據(jù)線也畫出過一道昂揚(yáng)的陽線：2024年底，AI 原生 App 的月活規(guī)模突破 1.2 億，同比增長 232%。其中豆包、Kimi、文小言月活躍用戶規(guī)模分別為7523萬、2101萬、1224萬。那也是“燒錢換增長”邏輯依然奏效的最后時(shí)光。彼時(shí)的媒體確信，2025 年將是三強(qiáng)爭霸的決戰(zhàn)時(shí)刻。

歷史的轉(zhuǎn)折往往比劇本更有戲劇性。2025年初，DeepSeek如同一場(chǎng)沒有預(yù)兆的海嘯，率先打響了“AI 普惠”的第一槍。

1月中旬，DeepSeek正式上線手機(jī)端 App，據(jù)相關(guān)數(shù)據(jù)，僅一個(gè)春節(jié)假期，其下載量便爆發(fā)式增長至 6400 萬次，這幾乎是同期國內(nèi)其他 AI 應(yīng)用周下載量總和的 6 倍。盡管“服務(wù)器繁忙”的提示頻繁彈出，但用戶對(duì)DeepSeek的熱情卻高位不減，人們將其稱為“DeepSeek 時(shí)刻”。

騰訊迅速跟進(jìn)，微信與元寶紛紛接入 DeepSeek R1 模型，將這場(chǎng)關(guān)于推理模型的競賽推向高潮。QuestMobile 的數(shù)據(jù)顯示，DeepSeek App 的日活在 2025 年 2 月底突破 5000 萬。在開源普惠效應(yīng)的沖擊下，原生 AI App 的行業(yè)格局被徹底顛覆：原有的座次被重排，Top 3 更迭為 DeepSeek、豆包與騰訊元寶。

DeepSeek的威壓之下，分化開始出現(xiàn)。零一萬物率先選擇了“務(wù)實(shí)”。它迅速將“DeepSeek Moment”納入企業(yè)服務(wù)的話術(shù)體系，成為“六小龍”中第一家全面擁抱 DeepSeek、提供定制部署方案的公司。

在當(dāng)時(shí)，零一萬物還面臨人才的流失，包括曹大鵬、戴宗宏在內(nèi)的核心技術(shù)高管接連出走，模型預(yù)訓(xùn)練負(fù)責(zé)人谷雪梅也宣布離職。動(dòng)蕩同樣發(fā)生在百川智能。2025 年 3 月，王小川在搜狗時(shí)期的老部下、負(fù)責(zé)大模型開發(fā)的聯(lián)創(chuàng)陳煒鵬與焦可相繼離開。

更殘酷的數(shù)據(jù)體現(xiàn)在 C 端戰(zhàn)場(chǎng)?！蹲帜赴瘛穲?bào)道，2024 年曾單月投流過億的月之暗面，在 2025 年 2 月按下了暫停鍵。在停止了投放，純粹依靠自然流量之下，Kimi 的 MAU 從峰值 2024 年 Q4 的 3600萬斷崖式下跌至2025 年 Q3 的 967 萬。用戶規(guī)模的差距，被巨頭無情拉大。

蕭條之下，剩下的智譜AI、MiniMax、月之暗面、階躍星辰四家，盡管沒有公開爆出放棄預(yù)訓(xùn)練的消息，但其在追趕OpenAI的進(jìn)度上都有了明顯的下滑。

故事在下半場(chǎng)發(fā)生了微妙的變奏。取得現(xiàn)象級(jí)成功后，DeepSeek 并未乘勝追擊擴(kuò)大 C 端版圖，而是選擇了一條更純粹的道路：收緊市場(chǎng)推廣，專注于底層能力與開放生態(tài)建設(shè)。甚至有觀點(diǎn)認(rèn)為，它正在退回到“純粹智力供應(yīng)商”的角色。

洗牌看似結(jié)束，但規(guī)則已被改寫。生存下來的“小龍們”被迫放棄了單純依靠燒錢換增長的幻夢(mèng)。在Gross Margin（毛利率）被 DeepSeek 永久性壓低的新常態(tài)下，它們開始尋找新的生存縫隙：月之暗面聚焦 Agent 的產(chǎn)品化；智譜與 MiniMax 相繼上市，向公開市場(chǎng)尋求資金與品牌背書。

市場(chǎng)上不再有關(guān)于“六小龍誰能成為下一個(gè) OpenAI”的猜測(cè)，紛紛討論起一個(gè)關(guān)于“如何在巨頭與開源的夾縫中，找到商業(yè)下限”的現(xiàn)實(shí)故事。

標(biāo)尺之下的繁花與喘息

從最新的研究成果來看，DeepSeek依然是那個(gè)理想而堅(jiān)定的技術(shù)信徒。

在其剛剛發(fā)布的論文《基于可擴(kuò)展查找的條件記憶：大型語言模型稀疏性的新維度》中，DeepSeek 提出了 Engram 架構(gòu)。旨在為現(xiàn)有 MoE（混合專家）架構(gòu)“減負(fù)”。

論文指出，Engram 將主干網(wǎng)絡(luò)的早期層從繁重的靜態(tài)模式重建任務(wù)中解放了出來。換句話說，以前的模型要花大量容量去“死記硬背”靜態(tài)知識(shí)，而現(xiàn)在 Engram 接管了這部分記憶，讓早期層可以專注于語義理解。這相當(dāng)于為推理任務(wù)有效地加深了網(wǎng)絡(luò)，并通過預(yù)取機(jī)制實(shí)現(xiàn)了幾乎零開銷的訪問。

長上下文（Long Context）的優(yōu)勢(shì)也因此變得顯著。通過將本地短語的“粘合劑”卸載到內(nèi)存中，模型釋放了寶貴的注意力機(jī)制，專注于捕捉那些遙遠(yuǎn)而隱秘的關(guān)聯(lián)。在“大海撈針”的多查詢匹配測(cè)試中，結(jié)果從 84.2% 躍升至 97.0%。

在《新立場(chǎng)》看來，此次 DeepSeek V4 的專精化，也暗示了 Scaling Law 在通用領(lǐng)域的邊際效應(yīng)遞減。DeepSeek 通過此舉，實(shí)質(zhì)上將自己定位為了“基礎(chǔ)能力的供水廠”，而將那些復(fù)雜的、場(chǎng)景化的“產(chǎn)品定義權(quán)”和“市場(chǎng)接觸權(quán)”，慷慨地讓渡給了下游。

這種在商業(yè)邊界上的主動(dòng)“退讓”，映射出的恰是 DeepSeek 與眾不同的企業(yè)文化，在國內(nèi)互聯(lián)網(wǎng)流量為王的語境下，這家公司有些過于“低調(diào)且任性”。

創(chuàng)始人梁文鋒鮮少站在聚光燈下。有報(bào)道稱，他不僅公開反對(duì)大語言模型收費(fèi)，甚至對(duì)送上門的外部投資持有排斥態(tài)度。在社交媒體上，DeepSeek 技術(shù)團(tuán)隊(duì)的賬號(hào)屈指可數(shù)，且?guī)缀踔挥懻撚埠思夹g(shù)，對(duì)常規(guī)的用戶反饋顯得有些“鈍感”。正如周鴻祎一針見血的評(píng)價(jià)：梁文鋒根本不想做 APP，他的心思全在 AGI（通用人工智能）上。

這份“任性”，在2025下半年演變?yōu)橐环N“心系天下”的開源普惠。同源數(shù)據(jù)顯示，2025 年下半年，第三方托管的 DeepSeek R1 和 V3 模型使用量呈指數(shù)級(jí)上升。

各行各業(yè)爭相接入，有人驚呼“混元、通義的‘智商’正在迎頭趕上”，有人開發(fā)出了技術(shù)小白也能用的 AI 智能體，甚至有人將推理模型植入到了人形機(jī)器人的大腦中。

DeepSeek的“胸懷”也給了垂直整合者——即“小龍們”一個(gè) Product-Market Fit (被迫的市場(chǎng)匹配) 的窗口期。在此新命題下，幸存的玩家們依據(jù)自身稟賦，選擇了差異極大的突圍路徑，最終在2026年初迎來了喘息之機(jī)。

月之暗面選擇了“兩手抓”。產(chǎn)品側(cè)，Kimi從5月開始高頻推出 Researcher、OK Computer、Kimi Code 等 Agent 新品；人事側(cè)，引入投資人背景的張予彤任總裁，統(tǒng)籌戰(zhàn)略與商業(yè)化。

創(chuàng)始人楊植麟也不再言必稱 OpenAI，他在年終信中寫道，公司的目標(biāo)是超越 Anthropic 成為世界領(lǐng)先的AGI公司。憑借“長文本+Agent”的雙輪驅(qū)動(dòng)，月之暗面即將完成新一輪融資，估值攀升至 48 億美元，這距離其剛剛完成5億美元融資僅數(shù)周時(shí)間。

兩家上市企業(yè)也登上了新的高度。截至發(fā)稿，智譜與 MiniMax 市值分別達(dá)到 895 億與 1247 億。上市解決了智譜持續(xù)研發(fā)的“彈藥”問題，首席科學(xué)家唐杰隨即宣布全面回歸基礎(chǔ)模型研究，即將推出 GLM-5。

而估值領(lǐng)跑的 MiniMax 則在視頻生成領(lǐng)域發(fā)力，其新一代模型 Hailuo 2.3 在物理動(dòng)作與微表情上效果顯著，同時(shí)推出了更低價(jià)的 Fast 版本，將批量創(chuàng)作成本砍半。

但這片應(yīng)用層的“繁花似錦”，本質(zhì)上完全仰賴于 DeepSeek 所劃定的新標(biāo)尺，DeepSeek 用開源和低價(jià)，無情地剝奪了中間商賺取“信息差”的權(quán)力，迫使所有幸存者必須從“販賣算力”轉(zhuǎn)向“販賣價(jià)值”。

而在劃定完這條紅線后，DeepSeek選擇“高抬貴手”。

當(dāng)然這并非出于商業(yè)上的仁慈，而更像是一種高維度的技術(shù)潔癖。在同行們還在為應(yīng)用層的日活（DAU）沾沾自喜時(shí)，DeepSeek 已經(jīng)轉(zhuǎn)身，全力投身于那些更枯燥、更抽象、也更具決定性的難題——下一代稀疏架構(gòu)的效率極限、推理強(qiáng)化的邏輯閉環(huán)、以及那個(gè)代號(hào)為“MODEL1”的未知架構(gòu)。

這種“不在場(chǎng)”，反而構(gòu)成了一種更為強(qiáng)大的壓迫感。對(duì)于整個(gè) AI 行業(yè)而言，DeepSeek平時(shí)靜默無聲，但它每一次參數(shù)的微調(diào)、每一篇論文的發(fā)布，都決定了生態(tài)圈里的空氣是稀薄還是充沛，是晴空萬里還是暴雨將至。

從這個(gè)意義上看，DeepSeek 更像是AI牌桌上發(fā)牌員手中那副不斷變化的底牌。

寫在最后

此外，《新立場(chǎng)》捕捉到一條被忽視的暗線，DeepSeek最新論文的核心思路是無限制地加大內(nèi)存吞吐，這一思路，與大洋彼岸硅谷硬件巨頭的頂層設(shè)計(jì)不謀而合。無論是谷歌 TPU 的雙倍內(nèi)存升級(jí)，還是英偉達(dá)下一代 Rubin 架構(gòu)對(duì)上下文內(nèi)存的堆砌，中美技術(shù)棧在解決瓶頸時(shí)達(dá)成了驚人的默契。

對(duì)于龐大的 MoE（混合專家）模型而言，單純依賴顯存已是死胡同，大量采購 DRAM 進(jìn)行混搭成為剛需。這也解釋了為何沉寂多時(shí)的內(nèi)存市場(chǎng)，會(huì)在最近年突然迎來一波結(jié)構(gòu)性暴漲。

歷史總是押著相似的韻腳。2016 年 AlphaGo 的驚鴻一瞥，曾催生了上一代“AI 四小龍”的鍍金時(shí)代。商湯與云從雖先后登陸資本市場(chǎng)，卻在高昂的研發(fā)投入與慘淡的商業(yè)化回報(bào)中消耗了耐心。當(dāng) OpenAI 開啟大模型時(shí)代，上一代的技術(shù)明星仍在潛心修煉“造血”能力。

作為本輪周期中率先轉(zhuǎn)型的零一萬物創(chuàng)始人，李開復(fù)曾在3月做過一個(gè)殘酷的預(yù)判：中國市場(chǎng)最終能站穩(wěn)腳跟的基礎(chǔ)模型廠商只有三家——DeepSeek、阿里和字節(jié)。

站在 2026 年初的節(jié)點(diǎn)回望，預(yù)言部分應(yīng)驗(yàn)，但結(jié)局比想象中溫和。

幸存的“小龍們”呈現(xiàn)出一幅各得其所的圖景：智譜與 MiniMax 借力資本市場(chǎng)實(shí)現(xiàn)了市值躍遷；月之暗面手握重金，繼續(xù)在技術(shù)深水區(qū)進(jìn)行下一場(chǎng)豪賭；而零一萬物們則在企業(yè)服務(wù)的“綠地”里找到了務(wù)實(shí)的敘事。一種劫后余生的松弛感，開始在行業(yè)彌漫。

但這種松弛感，或許恰恰源于那個(gè)最緊繃的存在所主動(dòng)選擇的一次“退讓”。

*題圖及文中配圖來源于網(wǎng)絡(luò)。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#deepseek