- +1
易珂 | 數據洪流中的擺渡人
在大數據與人工智能浪潮洶涌澎湃的今天,數據庫技術作為信息時代的基石,正以前所未有的速度重塑著我們的世界。從互聯網的海量點擊到金融系統的逐筆交易,從社交網絡的瞬時爆發(fā)到城市大腦的精密運轉,數據的洪流日夜不息,沖刷著人類社會的每一個角落。

▲易珂
在這股洶涌的洪流深處,有一位年輕的擺渡人,他不僅擅長設計最高效的航道,讓數據的價值得以在最短時間內抵達彼岸,更致力于構建更堅固的堤壩以抵御隱私泄露的浪潮。他就是香港科技大學計算機科學與工程系教授、大數據技術理學碩士項目主任——易珂。在他厚重的科研字典里,始終貫穿著一條清晰而堅定的主線——要做學以致用的科研。
在理論與實踐的十字路口
1979年出生的易珂,與計算機的緣分始于少年時代的數理天賦。18歲時,憑借國際競賽的優(yōu)異表現,他被保送清華大學計算機科學與技術專業(yè)。
彼時,計算機專業(yè)已是國內最熱門的專業(yè)之一,這里為易珂打開了通往計算機世界的大門。在清華的4年,是易珂夯實理論基礎的關鍵時期,數學、算法、數據庫原理等課程的學習,讓他對計算機科學的底層邏輯有了深刻理解?!氨究齐A段學的那些基礎知識,到現在做研究依然非常有用,尤其是跟數學、算法相關的內容,是我所有研究的根基。”多年后,易珂仍對清華的求學時光念念不忘,那些在圖書館啃讀專業(yè)書籍、在機房噼噼啪啪敲擊鍵盤的日子,不僅積累了知識,更培養(yǎng)了他嚴謹的科研思維和對學術研究的濃厚興趣。
在清華,易珂并非是只顧埋頭苦讀的“書呆子”,他同時擔任系科協主席,積極組織參與各種科研實踐活動,并以優(yōu)異的成績和出色的社會工作獲得清華大學特等獎學金。這種“理論學習+實踐探索”的模式,讓他早早意識到理論與實踐結合的重要性。
2001年,本科畢業(yè)的易珂遠赴美國杜克大學攻讀計算機科學博士學位。正值美國數據庫產業(yè)發(fā)展的黃金時期,甲骨文(Oracle)、微軟、國際商業(yè)機器公司(IBM)三大巨頭霸占全球市場,數據庫理論研究也處于國際前沿。初到杜克大學,易珂深刻感受到國內外科研環(huán)境的差距:彼時國際主流科研圈子被美國的科研團隊主導,而國內能在數據庫頂會SIGMOD、VLDB發(fā)表論文的學者屈指可數。但這種差距并未讓易珂退縮,反而成為他奮進的動力。
在杜克大學的5年是易珂科研理念成型的關鍵階段。這所經常被人稱作“南方哈佛”的學府,以其卓越的學術聲譽和前沿的科研方向,吸引了全球的優(yōu)秀學子。易珂師從兩位偏重理論的教授,在導師的影響下,形成了“以理論的優(yōu)美為核心,并向實際系統延伸”的研究思路。
理論計算機科學的研究常常是在黑暗中摸索。“理論這個東西,在做出來之前你是不知道能不能做出來的?!币诅嫣寡?。這種不確定性,對任何研究者都是巨大的心理考驗。
導師給了易珂一個重要建議:“做理論問題不要揪著一個問題死磕,要多角度審視,發(fā)現更多問題,這樣遇到困難時才有更多解決思路?!边@句話成為易珂日后指導學生的重要原則——拓寬視野、迂回前進,從不同角度審視問題。這不僅是一種研究方法,更是一種人生態(tài)度。
在當時,學術界還流行著一種傾向,即過分追求理論的完美性,而忽視了實際應用場景的復雜性。許多算法在數學上證明最優(yōu),但在真實的工程環(huán)境中卻因不接地氣或假設過于理想化而變得毫無用處。易珂對此深感憂慮。這一時期的磨礪,塑造出易珂獨特的科研風格:他善于從實際的痛點出發(fā),提煉出核心的數學模型,再用嚴密的邏輯推導出最優(yōu)解,最后回歸到系統中去驗證。這種閉環(huán)的科研思維,讓他的研究成果既有理論的高度,又有落地的溫度。
在博士階段,易珂展現出了驚人的專注力與洞察力。他將研究方向鎖定在數據庫理論與系統,早早在被譽為“數據界的奧斯卡”的數據管理國際會議(SIGMOD)上發(fā)表論文,成為同齡人中的佼佼者。博士二、三年級接連發(fā)表的高質量論文,不僅讓他在國際數據庫領域嶄露頭角,更讓他堅定了在數據庫領域深耕下去的決心。
2006年博士畢業(yè)時,易珂本可留美繼續(xù)深造,但他始終懷揣著回國做研究的想法。這時國內數據庫研究尚處于起步階段,而香港作為連接內地與國際的窗口,科研環(huán)境成熟,已能參與到國際主流科研中。于是,易珂做出了一個影響職業(yè)生涯的決定:先在美國電話電報公司(AT&T)實驗室做一年研究員,了解工業(yè)界的數據庫發(fā)展現狀之后,再赴香港科技大學任教。
在AT&T實驗室的一年,讓易珂走出了純學術的“象牙塔”,近距離接觸到工業(yè)界對數據庫技術的實際需求——電信行業(yè)的海量數據處理、分布式系統的性能優(yōu)化,這些實際問題讓他更加堅定了“做有用的理論研究”的理念,也為他日后將理論成果落地產業(yè)埋下了伏筆。2007年,易珂正式加盟香港科技大學(以下簡稱“港科大”),開啟了屬于自己的科研新篇章。
站立浪潮之巔做“有用的科研”
香港是中國連接世界的窗口,而港科大的數據庫研究已經走在亞洲前列。初到港科大,易珂得到了時任系主任倪明選教授的大力支持:一筆豐厚的啟動經費,讓他能夠搭建自己的課題組;招生時的最高優(yōu)先級,讓他得以挑選到最優(yōu)秀的學生,其中不乏“姚班”精英。“我的學生都是從國內外頂尖大學過來的,他們的天賦和努力,為課題組的發(fā)展打下了堅實的基礎。”港科大濃厚的數據庫研究氛圍,為易珂提供了自由的科研環(huán)境。
“數據庫是基礎軟件,是管理數據的核心工具,從個人、企業(yè)到政府,再到國家安全,都離不開數據庫技術的支撐。”在易珂看來,數據庫研究絕對不能是紙上談兵,而是要扎根產業(yè)需求,解決實際問題。從港科大的科研起步開始,他便始終圍繞產業(yè)發(fā)展中的核心痛點展開研究,在并行分布式SQL查詢(結構化查詢)處理、近似查詢、差分隱私、安全多方計算等領域不斷突破,用扎實的理論成果破解產業(yè)發(fā)展的技術瓶頸,實現從“理論創(chuàng)新”到“系統研發(fā)”再到“產業(yè)落地”的閉環(huán)。
2016年,易珂團隊的近似查詢研究摘得SIGMOD最佳論文獎,這是他第一次獲此殊榮,而這項研究的起點,源自一次偶然的思想碰撞。有一次,易珂與合作者李飛飛(現任阿里巴巴集團副總裁)在國內參加論壇,返回的車上,兩人針對大數據時代的查詢效率問題展開討論,僅僅半個小時便碰撞出了近似查詢的核心想法。“當時就是突然的靈光一現,覺得這個思路可行,然后就商定下來,組織團隊來實現。”易珂回憶道。

▲2025年,易珂團隊在柏林參加數據管理國際會議(SIGMOD)時合影
看似偶然的靈感,實則是長期積累的必然。隨著大數據時代來臨,數據規(guī)模呈爆炸式增長,傳統的精確查詢方式耗時久、資源消耗大,已無法滿足工業(yè)界的實時查詢需求。易珂敏銳地意識到,在很多實際場景中,人們并不需要絕對精確的查詢結果,允許一定誤差的近似查詢,能大幅降低查詢開銷,提升處理效率。基于這一需求,易珂團隊開始了為期3年的研究,從理論模型的構建,到算法的設計與優(yōu)化,再到系統的實現與測試,一步步將車上的靈感轉化為成熟的研究成果。
這項研究的核心,是將采樣技術應用于多表SQL查詢,在誤差可控的前提下,實現查詢效率的大幅提升。此前,采樣、數據勾勒等技術僅能應用于單表查詢,而易珂團隊的研究,首次將這些技術拓展到多表查詢中,填補了領域空白。更重要的是,這項研究并非停留在理論層面,而是與產業(yè)需求緊密結合。李飛飛回國加入阿里后,將這項研究成果落地到阿里的產品中,讓理論成果真正發(fā)揮了產業(yè)價值。“有些研究不是不能落地,而是需要合適的時機、環(huán)境和土壤。”易珂表示,近似查詢的落地,讓他更加堅信,理論研究只有與產業(yè)需求結合,才能真正體現價值。
如果說近似查詢是易珂團隊“理論聯系實際”的初次嘗試,那么并行分布式SQL查詢處理的研究,則是他帶領團隊在大數據時代的核心突破。2015年至2020年,隨著云計算的普及,分布式成為大數據處理的主流方式,而傳統的單機SQL查詢算法已無法適應分布式場景,一個未優(yōu)化的SQL查詢可能耗時數小時甚至數天,嚴重影響云端數據庫的可用性。
針對這一產業(yè)痛點,易珂團隊將研究重點放在了SPJA查詢(由選擇、映射、連接、聚合4個基本算子組成的常見SQL查詢)上。這是SQL查詢中最核心、最常用的類型,TPC-HBenchmark中的所有查詢均為SPJA查詢。易珂從理論入手,設計出一系列新的并行分布式算法,并從理論上證明了這些算法的最優(yōu)性。與傳統算法不同,易珂團隊的算法充分考慮了分布式場景的特點,大幅降低了查詢的時間和通信開銷。
在理論創(chuàng)新的基礎上,易珂并未就此止步,而是將理論成果落地到實際系統中。他們在Spark、Flink、Alibaba ADB等大規(guī)模分布式數據庫系統中驗證算法的有效性,將這些系統的SQL查詢性能大幅提升。其中,與阿里云合作研發(fā)的SPJ查詢采樣技術,將估計誤差降低3%至80%,相關成果發(fā)表于SIGMOD 2021,并集成至阿里云原生數據倉庫AnalyticDB系統的優(yōu)化器中,成為阿里云數據庫的核心技術支撐之一。此外,易珂團隊開發(fā)的Cquirrel系統原型,支持分布式SQL連續(xù)查詢,獲發(fā)專利,目前正由阿里云數據庫工程團隊進行產品化。
這項研究的科學意義,在于填補了并行分布式場景下SPJA查詢研究的空白。過去50年,數據庫領域對SPJA查詢的研究主要集中在單機環(huán)境,而易珂團隊的研究,將這一研究拓展到分布式場景,為云計算時代的數據庫查詢處理提供了新的理論和方法。正如國際同行的評價:“易珂團隊的大規(guī)模并行算法在近似關聯查詢上達到了最優(yōu)性?!边@項研究也讓易珂團隊成為國際分布式數據庫查詢處理領域的領軍團隊之一。
隨著數據安全和隱私保護的重要性日益凸顯,《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》等法律法規(guī)相繼出臺,數據隱私保護成為數據庫領域的重要研究方向。2019年起,易珂團隊將研究重點轉向差分隱私和安全多方計算,這也是他近5年來投入精力最多的研究方向。
差分隱私是目前業(yè)界通用的隱私保護標準,其核心是在查詢結果中加入符合要求的隨機噪聲,從信息論層面保證個人數據無法被反推。但早期的差分隱私研究主要集中在單表選擇查詢,對于連接、聚合等算子的支持十分有限,關鍵難點在于這些算子會讓查詢結果的敏感度變得無限大,使得傳統的差分隱私機制無法工作。易珂團隊提出了“實例最優(yōu)性”這一理論框架,將其與采樣、連接算法等技術結合,成功應用于一大類SPJA查詢,在同樣的隱私約束下,大幅降低了查詢結果的噪聲,且無需任何先驗知識。2022年,這項研究摘得SIGMOD最佳論文獎,這是易珂第二次獲此殊榮,也是國際數據庫領域對其研究成果的高度認可。
此外,易珂團隊還針對“信息孤島”問題,開展了安全多方計算的研究。在實際場景中,多方各持有一部分數據,因法律法規(guī)或商業(yè)利益無法共享,但很多計算任務需要多方數據協同完成。姚期智院士提出的安全多方計算理論框架,為解決這一問題提供了思路,但現有方案針對SQL查詢的效率極低。易珂團隊將數據庫理論與密碼學結合,設計出針對SQL關鍵算子的安全多方計算協議,將查詢效率提升5個數量級以上,并與阿里云合作開發(fā)了原型系統,在云環(huán)境下進行了初步部署。
盡管目前差分隱私和安全多方計算在國內的商業(yè)落地還面臨著隱私保護意識不足、技術實現復雜度高等問題,但易珂堅信,隨著社會的發(fā)展和技術的進步,這兩個領域的需求將迎來爆發(fā)式增長?!艾F在國內的身份證、醫(yī)療系統等都實現了互聯,數據隱私保護的需求越來越強烈,我相信兩到三年內,差分隱私和安全多方計算技術會實現大范圍的應用?!币诅嬲f,他的研究始終著眼于產業(yè)的未來需求,為產業(yè)發(fā)展提前筑牢技術根基。
20余載科研路,易珂帶領團隊在數據庫領域取得了一系列國際頂尖成果:2個SIGMOD最佳論文獎、2個SIGMOD最佳論文提名、4個SIGMOD研究亮點獎、1個PODS時間檢驗獎;開發(fā)了Quorion、DPSQL、SparkSQL+等多個系統原型;多項研究成果落地阿里云等產業(yè)平臺;他本人于2025年當選國際計算機學會會士(ACM Fellow)。這些成果的背后,是他始終堅持“做有用的科研”的理念——從產業(yè)需求中尋找研究問題,用理論創(chuàng)新解決產業(yè)痛點,讓理論成果走出實驗室,照進產業(yè)實踐。
亦師亦友攜手未來
從2000年前后國內數據庫產業(yè)完全依賴美國,到如今僅次于美國穩(wěn)居世界第二,中國數據庫產業(yè)的20余年,是一部奮起直追的發(fā)展史。而易珂,正是這場發(fā)展浪潮中的重要參與者和推動者。
作為一名在香港任教的內地學者,易珂始終以“橋梁”的身份,連接著內地與國際的數據庫研究,推動著中國數據庫領域的國際化發(fā)展。他多次受邀在國內高校做講座、開展交流,將國際前沿的數據庫理論和技術帶回內地。
易珂同時也清醒地認識到,中國數據庫領域與美國仍存在一定差距,尤其是在核心技術的原創(chuàng)性和高端人才的培養(yǎng)方面?!艾F在國內的論文發(fā)表數量已經很多了,但在一些核心理論和關鍵技術上,還需要更多的原創(chuàng)性突破。同時,數據庫領域的高端人才還比較緊缺,需要更多的年輕人投身這個領域?!?/p>
“學生培養(yǎng)這一塊,我還是挺自豪的?!闭劶白约旱膶W生,易珂的語氣中滿是欣慰。在港科大,易珂的團隊規(guī)模并不大,但培養(yǎng)出了多位活躍在國內外的優(yōu)秀學者。有的成為國內外高校的教授,有的成為產業(yè)界的中堅力量。這些學生如同撒向數據庫領域的種子,在各自的崗位上發(fā)光發(fā)熱,而這一切,都離不開易珂獨特的“放養(yǎng)式”培養(yǎng)理念。
這里的“放養(yǎng)”,并非放任自流,更不是不負責任。相反,它是一種基于高度信任與尊重的教育哲學。易珂的課題組,從來不是“導師說了算”的一言堂,而是“激發(fā)學生主觀能動性”的開放式平臺。他招生不多,一般同時只帶五六名學生,相比于一些大團隊的“批量培養(yǎng)”,他更注重“精耕細作”,為每個學生投入足夠的時間和精力。“每個學生的論文、代碼,我都會仔細看;對算法的設計、證明經常會一字一句的修改;他們有問題,我會馬上回答,但我不會主動推著學生走,更不會給他們定死研究方向?!?/p>
在易珂看來,數據庫研究尤其是理論研究,需要活躍的思維和獨立的思考能力,有天賦的學生更需要自由的科研環(huán)境?!拔蚁M麑W生能自己發(fā)現問題、提出問題、解決問題,而不是跟著我的思路走。只有這樣,他們才能真正培養(yǎng)起科研能力,未來才能獨當一面。”

▲易珂(前排右二)與學生合影
在易珂的課題組,學生可以自由選擇研究方向,只要是感興趣的、有價值的問題,他都會給予支持。他會與學生一起討論問題,提供理論指導和研究方法,但不會干涉學生的具體研究過程。這種“放養(yǎng)”,讓學生的主觀能動性得到了充分發(fā)揮,也讓他們的科研思維更加活躍。
易珂與學生之間亦師亦友。初到港科大時,他與學生的年齡相差僅四五歲,經常和學生一起在食堂吃飯、一起討論問題,這種平等的交流方式,讓學生敢于表達自己的想法。即便是現在,他依然保持著與學生密切交流的習慣,實驗室的頭腦風暴,是課題組的常態(tài)。“科研不是一個人的事,而是團隊的事。很多好的想法,都是在與學生的討論中碰撞出來的?!币诅嬲f,他的很多研究成果,都離不開學生的努力,學生的創(chuàng)新想法,也為他的研究帶來了新的視角。
在培養(yǎng)人才的過程中,易珂始終堅持“理論與實踐結合”的理念,鼓勵學生走出實驗室,了解產業(yè)需求。他會推薦學生到阿里、字節(jié)、華為等企業(yè)實習,讓他們近距離接觸工業(yè)界的實際問題;他會帶領學生與產業(yè)界的專家合作,讓他們在項目中提升實踐能力。這種培養(yǎng)方式,讓他的學生不僅具備扎實的理論功底,更擁有較強的實踐能力,無論是進入學術界還是產業(yè)界,都能快速適應崗位需求。
除了培養(yǎng)博士生,易珂還擔任港科大大數據技術理學碩士項目主任,致力于培養(yǎng)大數據領域的應用型人才。在課程設置上,他注重“理論+工程+產業(yè)應用”的結合,開設了數據科學、數據庫、分布式系統、AI、金融科技等課程,讓學生不僅掌握理論知識,更能掌握實際操作技能。他多次獲得港科大最佳教學獎,他的課程深受學生歡迎,培養(yǎng)的碩士畢業(yè)生,成為香港和內地大數據領域的重要人才儲備。
易珂的科研生涯,是中國年輕一代學者崛起的縮影。他們扎根中國大地,放眼全球視野,用最前沿的技術解決最實際的問題。他們不浮躁、不功利,堅守學術良知,勇擔時代使命。在未來的數據庫科研道路上,還有無數的難題等待著去破解,無數的價值等待著去挖掘。易珂愿意在數據的洪流中,繼續(xù)做一名堅定的擺渡人,探索數據庫技術的新邊界,用智慧和汗水書寫屬于自己的精彩篇章。
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




