- +1
離譜嗎?諾貝爾化學(xué)獎(jiǎng)也頒給了計(jì)算機(jī)科學(xué)家?
10 月 8 日,2024 年的諾貝爾物理學(xué)獎(jiǎng)揭曉,獎(jiǎng)項(xiàng)出人意料地頒給了兩位計(jì)算機(jī)科學(xué)家——普林斯頓大學(xué)的約翰·霍普菲爾德和多倫多大學(xué)的杰弗里·辛頓。頒獎(jiǎng)委員會(huì)的理由是,兩位科學(xué)家利用物理學(xué)工具開發(fā)了當(dāng)今強(qiáng)大的機(jī)器學(xué)習(xí)的基礎(chǔ)方法。
好吧,確實(shí)跟物理學(xué)有關(guān)系。
10 月 9 日,諾貝爾化學(xué)獎(jiǎng)揭曉,獎(jiǎng)項(xiàng)頒給了大衛(wèi)·貝克(David Baker)、德米斯·哈薩比斯( Demis Hassabis)和約翰·詹珀(John M. Jumper)。獲獎(jiǎng)理由是表彰他們通過(guò)計(jì)算和人工智能揭示了蛋白質(zhì)的秘密。

計(jì)算?人工智能?該不會(huì)諾獎(jiǎng)委員會(huì)把化學(xué)獎(jiǎng)也給了計(jì)算機(jī)科學(xué)家吧?
還真讓你猜對(duì)了,雖然大衛(wèi)·貝克和約翰·詹珀這二位科學(xué)家身上都有生物化學(xué)家的頭銜,但他們同時(shí)也擁有計(jì)算機(jī)科學(xué)家的頭銜。至于德米斯·哈薩比斯嘛,那就更不用說(shuō)了,他是一名專注于人工智能的計(jì)算機(jī)科學(xué)家,在進(jìn)入科研圈兒之前,他是一名棋盤游戲?qū)<?,還是業(yè)內(nèi)知名的視頻游戲的 AI 程序員和設(shè)計(jì)師。
以前,計(jì)算機(jī)科學(xué)家常常會(huì)被公眾看成是類似程序員一樣的工作,他們常常被稱之為工程師而不是科學(xué)家。今年,絕對(duì)是計(jì)算機(jī)科學(xué)打翻身仗的一年。
很多人都以為,化學(xué)家應(yīng)該是那種身穿白大褂,被一大堆瓶瓶罐罐圍著,要么在看顯微鏡,要么在搖試管的人。但是,隨著各種學(xué)科與計(jì)算機(jī)科學(xué)之間的交叉越來(lái)越緊密,尤其是隨著計(jì)算能力和人工智能技術(shù)的發(fā)展,你可能真的分不出一個(gè)身穿寬松的便裝,坐在電腦前噼里啪啦敲打鍵盤的人到底是一名游戲玩家,還是一名科學(xué)家了。

David Baker 在華盛頓大學(xué)的化學(xué)實(shí)驗(yàn)室
在我剛剛出版的新書《未來(lái)科技大爆炸》中,就專門講過(guò)大衛(wèi)·貝克的故事。他的爸爸馬歇爾·貝克是著名物理學(xué)家,媽媽瑪西亞·貝克是地球物理學(xué)家。1989 年他在加州伯克利分校拿到了生物化學(xué)博士學(xué)位,從那時(shí)候起就開始研究蛋白質(zhì)相關(guān)的課題。

Father Msrshall Backer

Son David Baker

Mother Marcia Baker
蛋白質(zhì)是構(gòu)成生命的基本零件,而氨基酸又是構(gòu)成蛋白質(zhì)的基本零件。從微觀結(jié)構(gòu)上來(lái)說(shuō),蛋白質(zhì)就是一團(tuán)由不同種類的氨基酸拼裝成的有機(jī)大分子,而不同的氨基酸就是拼裝大分子的小積木。由于每一種氨基酸都有固定的三維結(jié)構(gòu),當(dāng)氨基酸相互連接之后,就會(huì)讓蛋白質(zhì)這根長(zhǎng)長(zhǎng)的氨基酸鏈條發(fā)生折疊,形成一個(gè)更大的三維結(jié)構(gòu)。

美國(guó)生物化學(xué)家克里斯蒂安·安芬森(Christian Anfinsen)就發(fā)現(xiàn),蛋白質(zhì)可以展開再重新折疊,每次都能保持原來(lái)相同的形狀。于是他在反復(fù)試驗(yàn)后得出結(jié)論:蛋白質(zhì)的三維結(jié)構(gòu)完全是由蛋白質(zhì)中的氨基酸序列決定的。這也幫他贏得了 1972 年的諾貝爾化學(xué)獎(jiǎng)。

Christian Anfinsen (右)

這張來(lái)自安芬森論文的圖顯示左邊是折疊的RNase(核糖核酸酶),右邊是變性(未展開)的RNase。箭頭指向兩個(gè)方向,表示蛋白質(zhì)可以在可逆過(guò)程中折疊或展開。
蛋白質(zhì)的折疊有點(diǎn)兒像一種經(jīng)典的智力玩具——百變魔尺。百變魔尺有很多節(jié),每一節(jié)都可以向四個(gè)不同方向翻轉(zhuǎn)。這樣,一根長(zhǎng)長(zhǎng)的魔尺就可以被折疊成各種各樣的形狀。魔尺的節(jié)就像是氨基酸,而魔尺的節(jié)數(shù)越多,可能折疊出的三維結(jié)構(gòu)的數(shù)量就會(huì)呈現(xiàn)出幾何級(jí)數(shù)的增長(zhǎng)。
蛋白質(zhì)也是這樣。即便是只有 100 個(gè)氨基酸組成的蛋白質(zhì),理論上就可以折疊出 1047 種不同的三維結(jié)構(gòu)。如果氨基酸鏈隨機(jī)折疊,那么找到正確的蛋白質(zhì)結(jié)構(gòu)需要的時(shí)間比宇宙的年齡還要長(zhǎng)。但是在細(xì)胞中,蛋白質(zhì)完成一次正確的折疊,只需要幾毫秒即可,到底如何找到蛋白質(zhì)正確的三維結(jié)構(gòu),這成了一個(gè)巨大的謎題。

百變魔尺的說(shuō)明書
蛋白質(zhì)的折疊過(guò)程太像是一個(gè)解謎游戲了。2008 年的時(shí)候,大衛(wèi)·貝克突發(fā)奇想,既然拼裝氨基酸的過(guò)程與游戲如此相似,那么干嘛不開發(fā)一款游戲,讓玩家來(lái)參與蛋白質(zhì)的組合和拼裝呢?也許人多真的力量大呢?
說(shuō)干就干,有了想法之后,大衛(wèi)·貝克立即率領(lǐng)化學(xué)家團(tuán)隊(duì),搞起了游戲開發(fā)。沒(méi)過(guò)多長(zhǎng)時(shí)間,大衛(wèi)·貝克的游戲開發(fā)團(tuán)隊(duì)就把這個(gè)蛋白質(zhì)拼裝的游戲做出來(lái)了,為了吸引更多玩家,他們還升級(jí)了游戲,讓游戲可以聯(lián)網(wǎng)運(yùn)行。這個(gè)游戲的名字就叫做 Foldit——折疊。

在這個(gè)游戲中,玩家的目標(biāo)就是用各種各樣的氨基酸,拼裝出給定的蛋白質(zhì)分子的三維結(jié)構(gòu)。與宏觀世界中的物體差不多,蛋白質(zhì)的三維結(jié)構(gòu)某種程度上也決定了一個(gè)蛋白質(zhì)的性狀和功能。比如說(shuō),我們的免疫系統(tǒng)在面對(duì)病毒和細(xì)菌的入侵時(shí),會(huì)產(chǎn)生一種抗體蛋白。抗體蛋白的功能就是要緊緊夾住病毒身上突出的刺突蛋白,夾住之后,就能破壞刺突蛋白的特異性,從而阻止病毒進(jìn)入細(xì)胞。所以抗體蛋白的樣子,真的就像是一個(gè)抓娃娃的夾子,它能夠精準(zhǔn)地把刺突蛋白抓住。

圖:正在瞄準(zhǔn)和識(shí)別病毒的抗體
膠原蛋白是一種經(jīng)常被我們談?wù)摰牡鞍祝茏屛覀兊钠つw充滿彈性和活力。那么根據(jù)前面說(shuō)過(guò)的原理,你大概就能猜到膠原蛋白應(yīng)該的樣子,沒(méi)錯(cuò),膠原蛋白的樣子就像是三股互相擰在一起的橡皮筋。這樣的形態(tài)才能為我們的皮膚提供張力。

圖:長(zhǎng)相酷似橡皮筋的膠原蛋白
還有,2020 年獲得諾貝爾獎(jiǎng)的基因定點(diǎn)編輯技術(shù) CRISPR,就是利用了 CAS9蛋白能夠切斷 DNA 的能力而發(fā)明的。那么 CAS9 蛋白長(zhǎng)什么樣呢?對(duì)了,它確實(shí)就像是一把剪刀。下圖中橙色的蛋白質(zhì)就是 CAS9 蛋白,而綠色的部分則是被 CAS9 蛋白切斷的 DNA 分子。

圖:剪刀一樣的 CAS9 蛋白(橙色),緊緊地夾著 DNA(綠色)
由于蛋白質(zhì)常常有著與功能匹配的三維構(gòu)造,讓玩家們興趣盎然。蛋白質(zhì)折疊游戲 Foldit 一上線就火了。一個(gè)個(gè)的蛋白質(zhì)拼裝任務(wù),被海量的玩家一一攻破。在 Foldit 官網(wǎng)的論壇上,還有玩家留言說(shuō):“下一個(gè)任務(wù)什么時(shí)候出?希望有點(diǎn)兒難度才有挑戰(zhàn)性?!?/p>
要知道,玩家破解的這可不是什么設(shè)計(jì)出來(lái)的游戲任務(wù),那是一個(gè)又一個(gè)難度極高的蛋白質(zhì)結(jié)構(gòu)分析工程。用大衛(wèi)·貝克自己的話說(shuō),當(dāng)時(shí)這款游戲產(chǎn)出的科研成果,可以讓他的團(tuán)隊(duì)寫論文都寫到手軟。
2011 年,大衛(wèi)·貝克發(fā)表了一篇關(guān)于猴類艾滋病毒相關(guān)蛋白結(jié)構(gòu)解析的重磅文章。這也是游戲 Foldit 的功勞。這個(gè)蛋白的結(jié)構(gòu)已經(jīng)困擾了全世界研究者 15 年之久,但是,這個(gè)任務(wù)發(fā)到 Foldit 上之后,僅僅 10 天就宣告破解。連早已習(xí)以為常,論文寫到手軟的大衛(wèi)·貝克本人都大感震驚。這就是群眾的力量。

猴類艾滋病毒相關(guān)蛋白
當(dāng)然,大衛(wèi)·貝克并沒(méi)有忘記一邊游戲一邊幫助他搞科研的游戲玩家們。為了感謝玩家們的集體貢獻(xiàn),他專門寫了一篇論文發(fā)表在《自然》雜志上。論文的名字就叫《通過(guò)多人在線游戲預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)》。在論文作者一欄里赫然寫著:超過(guò) 57000 名 Foldit 玩家。這回玩家可高興了,免費(fèi)玩兒了這么有趣的游戲,幫助了科學(xué)研究,還順便成了成了頂級(jí)科學(xué)期刊的論文作者。這真是一舉三得贏麻了呀。
不過(guò),你可以別以為從蛋白質(zhì)的三維結(jié)構(gòu)推導(dǎo)出氨基酸的序列是一件容易的事情。其實(shí)在過(guò)去很長(zhǎng)一段時(shí)間里,人類都是通過(guò)給蛋白質(zhì)結(jié)晶體拍攝 X 光衍射圖像,再根據(jù)衍射圖案反向倒推出蛋白質(zhì)結(jié)構(gòu)的。這種方法雖然理論上可行,但實(shí)際上會(huì)受到很多方面因素的影響,而且實(shí)際實(shí)驗(yàn)精度也不高。所以在 1994 年之前的三十年間,人們已知結(jié)構(gòu)的蛋白質(zhì)總類只有幾百種而已。

實(shí)驗(yàn)室中確定結(jié)構(gòu)的蛋白質(zhì)數(shù)量隨時(shí)間的變化
當(dāng)時(shí),想要弄清楚一個(gè)蛋白質(zhì)的三維結(jié)構(gòu),唯一的辦法只能是耗費(fèi)巨大的人力、物力,用大量的重復(fù)實(shí)驗(yàn),通過(guò)觀察、思考、假設(shè)、驗(yàn)證的循環(huán)模式一步一步逼近一個(gè)蛋白質(zhì)結(jié)構(gòu)的真相。而且,這事兒并不是勤奮刻苦就能出成績(jī)的,因?yàn)榻馕鼋Y(jié)構(gòu)的過(guò)程是否順利有很大的運(yùn)氣成分。運(yùn)氣不好的時(shí)候,重復(fù)個(gè)上千次實(shí)驗(yàn)都有可能出不來(lái)結(jié)果。因此,每解析一個(gè)蛋白質(zhì)結(jié)構(gòu),通常的成本在幾萬(wàn)到幾十萬(wàn)美元之間。
那么,1994 年到底發(fā)生了什么呢?原來(lái),從 1994 年開始,誕生了一個(gè)名叫 CASP 的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)大賽。這場(chǎng)大賽每?jī)赡昱e行一次,每次都有來(lái)自全世界的超過(guò) 100 個(gè)研究團(tuán)隊(duì)參加。研究蛋白質(zhì)的科學(xué)家都會(huì)把贏得大賽當(dāng)作蛋白質(zhì)研究領(lǐng)域的至高榮譽(yù)。

CASP逐年預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的得分 (藍(lán)色是不采用AlphaFold的得分,綠色是對(duì)照組采用了AF的得分)
大衛(wèi)·貝克作為預(yù)測(cè)和設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu)算法的專家,自然每次都會(huì)去參加 CASP 大賽,也多次取得過(guò)不錯(cuò)的成績(jī)。用于從頭預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的 Rosetta 算法,以及志愿者利用計(jì)算機(jī)空閑時(shí)間就可以參與預(yù)測(cè)計(jì)算的分布式蛋白質(zhì)預(yù)測(cè)項(xiàng)目Rosetta@home 都是大衛(wèi)·貝克的團(tuán)隊(duì)在這段時(shí)期開發(fā)出來(lái)的。
2018 年 12 月,第 13 屆 CASP 大賽的桂冠被一個(gè)名叫 AlphaFold 的人工智能程序摘得。這一下子就成了生物學(xué)界的頭條新聞,因?yàn)橹皡①惖乃惴ê芏?,但是從?lái)沒(méi)有過(guò)人工智能程序來(lái) CASP 參賽。而且還一舉奪冠。
2020 年 11 月,第 14 屆 CASP 大賽的桂冠再次被同一支參賽團(tuán)隊(duì)奪走,只不過(guò),這一次他們參賽的版本是 AlphaFold2。這次比賽,AlphaFold2 的成績(jī)與第二名呈現(xiàn)出斷崖式的巨大差距。他們的得分達(dá)到了驚人的 92.4 分,而上一次奪冠時(shí),它的得分還不到 60 分。這種進(jìn)步的速度實(shí)在令人震驚。AlphaFold 預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)已經(jīng)非常接近于真實(shí)實(shí)驗(yàn)做出來(lái)的結(jié)果,人類離計(jì)算機(jī)攻克蛋白質(zhì)折疊問(wèn)題只有一步之遙。
設(shè)計(jì)了 AlphaFold 的不是別人,正是因?yàn)殚_發(fā)出人工智能圍棋程序 AlphaGo 而聞名的人工智能公司 DeepMind,而我們本屆諾貝爾化學(xué)獎(jiǎng)的另外兩名獲獎(jiǎng)?wù)叩旅姿埂す_比斯和約翰·詹珀,正是 AlphaFold 開發(fā)團(tuán)隊(duì)中的兩位核心科學(xué)家。
故事講到這里,相信你也理解了本屆諾貝爾化學(xué)獎(jiǎng)的前因后果。計(jì)算機(jī)科學(xué)家的連續(xù)獲獎(jiǎng)并非偶然。在科學(xué)探索的道路上,跨學(xué)科的合作正變得越來(lái)越重要,而數(shù)據(jù)、算法和人工智能驅(qū)動(dòng)的研究正在成為趨勢(shì)。
大衛(wèi)·貝克、德米斯·哈薩比斯和約翰·詹珀的工作展示了計(jì)算機(jī)科學(xué)與生物學(xué)的結(jié)合如何推動(dòng)了我們對(duì)生命的理解。通過(guò)將人工智能的力量引入到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中,他們不僅解決了長(zhǎng)久以來(lái)困擾科學(xué)家們的難題,也為藥物設(shè)計(jì)、疾病治療以及生物工程等領(lǐng)域開辟了新的可能性。
很顯然,我們現(xiàn)在就生活在一個(gè)新舊時(shí)代交替的節(jié)點(diǎn)上。一個(gè)由數(shù)據(jù)驅(qū)動(dòng)、由算力支撐,由人工智能推動(dòng)的新時(shí)代就在眼前。在這個(gè)時(shí)代里,傳統(tǒng)的實(shí)驗(yàn)室工作與先進(jìn)的計(jì)算方法相輔相成,共同推進(jìn)著科學(xué)研究的進(jìn)步。正如大衛(wèi)·貝克所展示的那樣,即使是看似遙不可及的問(wèn)題,也有可能通過(guò)創(chuàng)新思維和技術(shù)革新找到答案。而這一切才剛剛開始。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




