前谷歌TensorFlow核心創(chuàng)始成員潘欣加入零一萬物，大模型人才爭奪成焦點

2024-01-26 17:25

來源：澎湃新聞·澎湃號·湃客

聽全文

原創(chuàng) 趙健甲子光年

人才備戰(zhàn)將成為決定大模型勝負(fù)的重要因素。

作者｜趙健

「甲子光年」獨家獲悉，前谷歌TensorFlow核心創(chuàng)始成員潘欣去年加入「零一萬物」，擔(dān)任首席架構(gòu)師，負(fù)責(zé)多模態(tài)研發(fā)。

潘欣畢業(yè)于北京郵電大學(xué)與滑鐵盧大學(xué)計算機(jī)系，與深度學(xué)習(xí)框架打交道多年，曾任職于谷歌、百度、騰訊、字節(jié)跳動，在CVPR，ICCV，SoCC等會議發(fā)表論文。

在谷歌期間，潘欣先在Core Infra從事大數(shù)據(jù)系統(tǒng)開發(fā)，后在2015年底加入谷歌大腦團(tuán)隊（Google Brain），與谷歌大腦的聯(lián)合創(chuàng)始人杰夫·迪恩（Jeff Dean）、薩米·本吉奧（Samy Bengio）等合作，為TensorFlow和Brain Research的核心創(chuàng)始成員之一，對Eager、TPU、Profiling和Model Zoo等技術(shù)做出重要貢獻(xiàn)。

2017年底，潘欣帶著“打造國產(chǎn)第一框架”的理想受邀加入百度，擔(dān)任深度學(xué)習(xí)技術(shù)平臺部架構(gòu)師，負(fù)責(zé)PaddlePaddle框架開發(fā)。2019年，潘欣加入騰訊擔(dān)任平臺與內(nèi)容事業(yè)群（PCG） AI平臺技術(shù)負(fù)責(zé)人，打造了深度學(xué)習(xí)框架“無量”。

在加入零一萬物之前，潘欣在字節(jié)跳動擔(dān)任AIGC和視覺大模型AI平臺負(fù)責(zé)人。

潘欣

此外，「甲子光年」還獨家獲悉，前商湯科技AI總監(jiān)聶鵬程，也于去年加入零一萬物，擔(dān)任首席技術(shù)專家，負(fù)責(zé)AI Agent與大模型研發(fā)。

聶鵬程畢業(yè)于西安電子科技大學(xué)，先后在IBM、華為擔(dān)任資深技術(shù)專家，2019年加入智載云帆擔(dān)任CTO，2021年加入商湯科技擔(dān)任技術(shù)總監(jiān)，負(fù)責(zé)AI超算、AI Infra等相關(guān)工作。

「甲子光年」了解到，聶鵬程在商湯科技期間負(fù)責(zé)過2.7萬張GPU的AI數(shù)據(jù)中心，是在大模型爆火之前國內(nèi)最大規(guī)模的算力集群，有豐富的AI Infra技術(shù)與經(jīng)驗。

聶鵬程

零一萬物是李開復(fù)博士在2023年3月底正式宣布籌辦的大模型公司，由創(chuàng)新工場出資設(shè)立。2023年11月，據(jù)報道，零一萬物已完成由阿里云領(lǐng)投的新一輪融資，估值達(dá)到10億美元，躋身大模型獨角獸之列。

大模型是一場資源密集、人才密集的競爭，其創(chuàng)業(yè)難度遠(yuǎn)非普通行業(yè)可比。為了招攬頂尖人才，去年李開復(fù)、王慧文、藍(lán)振忠、周伯文等大佬廣發(fā)“英雄帖”，為大模型創(chuàng)業(yè)預(yù)熱。

零一萬物在2023年7月首次官宣數(shù)十位核心成員到位，根據(jù)公開信息，包括前百度副總裁馬杰，前微軟副總裁祁瑞峰等。

在11月首次發(fā)布大模型之際，零一萬物還公布了兩位核心技術(shù)人員——黃文灝與戴宗宏。

黃文灝擔(dān)任零一萬物技術(shù)副總裁及Pretrain負(fù)責(zé)人，曾先后任職于微軟亞洲研究院和智源研究院。在微軟從事AI Agent研究工作時，曾得到比爾·蓋茨與薩提亞·納德拉的高度贊揚(yáng)。

戴宗宏擔(dān)任零一萬物技術(shù)副總裁及AI Infra負(fù)責(zé)人，是前華為云AI CTO及技術(shù)創(chuàng)新部長、前阿里達(dá)摩院AI Infra總監(jiān)。他負(fù)責(zé)的AI Infra團(tuán)隊成員主要來自于阿里、華為、微軟、商湯，曾參與支持了4個千億參數(shù)大模型規(guī)?；?xùn)練，管理過數(shù)萬張GPU卡。

2023年6月份，在核心成員陸續(xù)就位之后，零一萬物寫下了第一行代碼。零一萬物選擇基于開源模型架構(gòu)，從大模型的預(yù)訓(xùn)練（Pre-train）開始做起，這是業(yè)內(nèi)最難、最重的一條路。

OpenAI科學(xué)家安德烈·卡帕西（Andrej Karpathy）曾表示：“預(yù)訓(xùn)練就是在超級計算機(jī)中使用數(shù)千個GPU以及可能進(jìn)行數(shù)月時間來處理互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集的地方，占據(jù)訓(xùn)練時間的99%?！?/p>

為此，零一萬物構(gòu)建了一個數(shù)千卡GPU的集群。

零一萬物將大模型平臺研發(fā)拆解為七大模塊技術(shù)，除了預(yù)訓(xùn)練之外，還包括Post-train、AI Infra、多模態(tài)、平臺中間件及工具鏈、推理和服務(wù)部署。

在訓(xùn)練了三個月之后，零一萬物在11月6日正式發(fā)布首款大模型Yi，開源了Yi-6B與Yi-34B兩個版本模型與200K上下文窗口技術(shù)，并登頂了Hugging Face英文測試公開榜單Pretrained與C-Eval中文模型排行榜。11月24日，零一萬物上線Yi-34B-Chat微調(diào)模型及量化版。

零一萬物最新的模型迭代是在本周，上線了Yi-VL（Yi Vision Language）多模態(tài)語言模型并面向全球開源。其中，在MMMU與CMMMU數(shù)據(jù)集測試中，Yi-VL-34B模型的表現(xiàn)僅次于GPT-4V。

目前國產(chǎn)頭部大模型整體處于追平GPT-3.5、追趕GPT-4的過程中，當(dāng)前階段模型的核心競爭力集中在AI Infra。

去年11月零一萬物曾表示，經(jīng)過幾個月大量的建模和實驗，自研了一套“科學(xué)訓(xùn)?！钡姆椒ㄕ?，把過去不確定性較高的“煉丹”過程變得極度細(xì)致和科學(xué)化，將Yi-34B的訓(xùn)練成本降低了40%。這套方法論的優(yōu)勢在于，當(dāng)模型參數(shù)變大，訓(xùn)練過程也會“絲滑”平穩(wěn)地擴(kuò)大，保證迭代速度與穩(wěn)定性。

基于此方法論，零一萬物曾預(yù)告未來會推出千億模型參數(shù)的閉源版本。零一萬物的最終愿景，是構(gòu)建面向to C市場的超級應(yīng)用，做一款面向AI 2.0時代的微信、抖音。

（封面圖來源：零一萬物）

END.

原標(biāo)題：《獨家：前谷歌TensorFlow核心創(chuàng)始成員潘欣加入零一萬物，大模型人才爭奪成焦點｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#大模型 #零一萬物