- +1
前谷歌TensorFlow核心創(chuàng)始成員潘欣加入零一萬物,大模型人才爭奪成焦點
原創(chuàng) 趙健 甲子光年
人才備戰(zhàn)將成為決定大模型勝負(fù)的重要因素。作者|趙健
「甲子光年」獨家獲悉,前谷歌TensorFlow核心創(chuàng)始成員潘欣去年加入「零一萬物」,擔(dān)任首席架構(gòu)師,負(fù)責(zé)多模態(tài)研發(fā)。
潘欣畢業(yè)于北京郵電大學(xué)與滑鐵盧大學(xué)計算機(jī)系,與深度學(xué)習(xí)框架打交道多年,曾任職于谷歌、百度、騰訊、字節(jié)跳動,在CVPR,ICCV,SoCC等會議發(fā)表論文。
在谷歌期間,潘欣先在Core Infra從事大數(shù)據(jù)系統(tǒng)開發(fā),后在2015年底加入谷歌大腦團(tuán)隊(Google Brain),與谷歌大腦的聯(lián)合創(chuàng)始人杰夫·迪恩(Jeff Dean)、薩米·本吉奧(Samy Bengio)等合作,為TensorFlow和Brain Research的核心創(chuàng)始成員之一,對Eager、TPU、Profiling和Model Zoo等技術(shù)做出重要貢獻(xiàn)。
2017年底,潘欣帶著“打造國產(chǎn)第一框架”的理想受邀加入百度,擔(dān)任深度學(xué)習(xí)技術(shù)平臺部架構(gòu)師,負(fù)責(zé)PaddlePaddle框架開發(fā)。2019年,潘欣加入騰訊擔(dān)任平臺與內(nèi)容事業(yè)群(PCG) AI平臺技術(shù)負(fù)責(zé)人,打造了深度學(xué)習(xí)框架“無量”。
在加入零一萬物之前,潘欣在字節(jié)跳動擔(dān)任AIGC和視覺大模型AI平臺負(fù)責(zé)人。

潘欣
此外,「甲子光年」還獨家獲悉,前商湯科技AI總監(jiān)聶鵬程,也于去年加入零一萬物,擔(dān)任首席技術(shù)專家,負(fù)責(zé)AI Agent與大模型研發(fā)。
聶鵬程畢業(yè)于西安電子科技大學(xué),先后在IBM、華為擔(dān)任資深技術(shù)專家,2019年加入智載云帆擔(dān)任CTO,2021年加入商湯科技擔(dān)任技術(shù)總監(jiān),負(fù)責(zé)AI超算、AI Infra等相關(guān)工作。
「甲子光年」了解到,聶鵬程在商湯科技期間負(fù)責(zé)過2.7萬張GPU的AI數(shù)據(jù)中心,是在大模型爆火之前國內(nèi)最大規(guī)模的算力集群,有豐富的AI Infra技術(shù)與經(jīng)驗。

聶鵬程
零一萬物是李開復(fù)博士在2023年3月底正式宣布籌辦的大模型公司,由創(chuàng)新工場出資設(shè)立。2023年11月,據(jù)報道,零一萬物已完成由阿里云領(lǐng)投的新一輪融資,估值達(dá)到10億美元,躋身大模型獨角獸之列。
大模型是一場資源密集、人才密集的競爭,其創(chuàng)業(yè)難度遠(yuǎn)非普通行業(yè)可比。為了招攬頂尖人才,去年李開復(fù)、王慧文、藍(lán)振忠、周伯文等大佬廣發(fā)“英雄帖”,為大模型創(chuàng)業(yè)預(yù)熱。
零一萬物在2023年7月首次官宣數(shù)十位核心成員到位,根據(jù)公開信息,包括前百度副總裁馬杰,前微軟副總裁祁瑞峰等。
在11月首次發(fā)布大模型之際,零一萬物還公布了兩位核心技術(shù)人員——黃文灝與戴宗宏。
黃文灝擔(dān)任零一萬物技術(shù)副總裁及Pretrain負(fù)責(zé)人,曾先后任職于微軟亞洲研究院和智源研究院。在微軟從事AI Agent研究工作時,曾得到比爾·蓋茨與薩提亞·納德拉的高度贊揚(yáng)。
戴宗宏擔(dān)任零一萬物技術(shù)副總裁及AI Infra負(fù)責(zé)人,是前華為云AI CTO及技術(shù)創(chuàng)新部長、前阿里達(dá)摩院AI Infra總監(jiān)。他負(fù)責(zé)的AI Infra團(tuán)隊成員主要來自于阿里、華為、微軟、商湯,曾參與支持了4個千億參數(shù)大模型規(guī)?;?xùn)練,管理過數(shù)萬張GPU卡。

2023年6月份,在核心成員陸續(xù)就位之后,零一萬物寫下了第一行代碼。零一萬物選擇基于開源模型架構(gòu),從大模型的預(yù)訓(xùn)練(Pre-train)開始做起,這是業(yè)內(nèi)最難、最重的一條路。
OpenAI科學(xué)家安德烈·卡帕西(Andrej Karpathy)曾表示:“預(yù)訓(xùn)練就是在超級計算機(jī)中使用數(shù)千個GPU以及可能進(jìn)行數(shù)月時間來處理互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集的地方,占據(jù)訓(xùn)練時間的99%?!?/p>
為此,零一萬物構(gòu)建了一個數(shù)千卡GPU的集群。
零一萬物將大模型平臺研發(fā)拆解為七大模塊技術(shù),除了預(yù)訓(xùn)練之外,還包括Post-train、AI Infra、多模態(tài)、平臺中間件及工具鏈、推理和服務(wù)部署。
在訓(xùn)練了三個月之后,零一萬物在11月6日正式發(fā)布首款大模型Yi,開源了Yi-6B與Yi-34B兩個版本模型與200K上下文窗口技術(shù),并登頂了Hugging Face英文測試公開榜單Pretrained與C-Eval中文模型排行榜。11月24日,零一萬物上線Yi-34B-Chat微調(diào)模型及量化版。
零一萬物最新的模型迭代是在本周,上線了Yi-VL(Yi Vision Language)多模態(tài)語言模型并面向全球開源。其中,在MMMU與CMMMU數(shù)據(jù)集測試中,Yi-VL-34B模型的表現(xiàn)僅次于GPT-4V。
目前國產(chǎn)頭部大模型整體處于追平GPT-3.5、追趕GPT-4的過程中,當(dāng)前階段模型的核心競爭力集中在AI Infra。
去年11月零一萬物曾表示,經(jīng)過幾個月大量的建模和實驗,自研了一套“科學(xué)訓(xùn)?!钡姆椒ㄕ?,把過去不確定性較高的“煉丹”過程變得極度細(xì)致和科學(xué)化,將Yi-34B的訓(xùn)練成本降低了40%。這套方法論的優(yōu)勢在于,當(dāng)模型參數(shù)變大,訓(xùn)練過程也會“絲滑”平穩(wěn)地擴(kuò)大,保證迭代速度與穩(wěn)定性。
基于此方法論,零一萬物曾預(yù)告未來會推出千億模型參數(shù)的閉源版本。零一萬物的最終愿景,是構(gòu)建面向to C市場的超級應(yīng)用,做一款面向AI 2.0時代的微信、抖音。
(封面圖來源:零一萬物)
END.
原標(biāo)題:《獨家:前谷歌TensorFlow核心創(chuàng)始成員潘欣加入零一萬物,大模型人才爭奪成焦點|甲子光年》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




