- +1
Science經(jīng)典回顧:計算社會科學(xué)宣言
原創(chuàng) David Lazer等 集智俱樂部 收錄于話題#必讀經(jīng)典論文12個
導(dǎo)語在自然科學(xué)領(lǐng)域已經(jīng)廣泛應(yīng)用大數(shù)據(jù)、分布式計算等方式提高研究質(zhì)量的今天,社會科學(xué)領(lǐng)域涉及到的核心數(shù)據(jù)仍然被少數(shù)機構(gòu)所擁有并創(chuàng)造著巨大的價值。而與此同時,數(shù)據(jù)隱私、制度規(guī)范等問題也紛至沓來。社會計算(social computing)概念于1994年被首次提出,社會科學(xué)與計算機科學(xué)的交融既是長期的學(xué)術(shù)熱點,也深刻地影響著社會發(fā)展。2009年2月6日,15名來自社會科學(xué)、計算機科學(xué)和物理學(xué)的重要學(xué)者聯(lián)名在Science發(fā)表文章,計算社會科學(xué)(computational social science)被推上前臺。
集智俱樂部已經(jīng)開始,多位專家牽頭,從計算科學(xué)與復(fù)雜科學(xué)等跨學(xué)科視角,探討社會、經(jīng)濟等領(lǐng)域的問題。讀書會為期10-12周,每周四晚舉辦。詳情見文末。
David Lazer等 | 作者
陳孟園 | 翻譯
張洪 | 審校
李沛欣 | 編輯
原文題目:Computational Social Science
論文地址:
https://science.sciencemag.org/content/323/5915/721
1. 計算社會科學(xué)的誕生
一場信息革命,一次技術(shù)飛躍,一門新興學(xué)科誕生,2009年2月6日,是計算社會科學(xué)界值得紀念的日子。15名來自社會科學(xué)、計算機科學(xué)和物理學(xué)的重要科學(xué)家聯(lián)名在Science上發(fā)表該篇文章《Computer Social Science》,宣告計算社會科學(xué)的誕生。
21世紀,我們生活在網(wǎng)絡(luò)之中,臉書、微信、電話和郵件一秒鐘溝通起了你我他,一封封往來的信件在互聯(lián)網(wǎng)中留下印記;信用卡、公交卡記錄了你我的地域軌跡和消費支出;在車頭我們安裝攝像機記錄行車狀況,而政府在公共場所各處裝上監(jiān)控記錄犯罪證據(jù)。我們雖生活在真實的生活當(dāng)中,但卻在虛擬的世界留下種種數(shù)字印記,這些印記改變了我們的生活,改變了我們對社會的理解,改變了科學(xué)研究的進程。
搜集和分析大數(shù)據(jù)的能力已經(jīng)徹底改變了自然科學(xué),比如生物學(xué)和物理學(xué)。然而,數(shù)據(jù)驅(qū)動的計算社會科學(xué)發(fā)展卻極為緩慢,在經(jīng)濟學(xué)、社會學(xué)以及政治學(xué)的重要期刊上都很少有計算社會科學(xué)的相關(guān)文章。但不容忽視的是,在一些知名的互聯(lián)網(wǎng)公司Google、Yahoo和政府部門比如美國安全局中,正在開展計算社會科學(xué)的研究。
計算社會科學(xué)也許會僅僅集中在私人公司和政府部門內(nèi)部。又或者,某些擁有特權(quán)的學(xué)術(shù)研究者將使用這些獨一無二的“秘密”數(shù)據(jù),從而發(fā)表無法被別人評價和復(fù)制的論文。從長遠來看,以上這兩種情況都不利于知識的積累、驗證與傳播。讓我們試想,如果在一個開放的學(xué)術(shù)環(huán)境下,計算社會科學(xué)將會如何增強我們對個人和集體行為的理解?
2. 計算社會科學(xué)關(guān)心的內(nèi)容至今,關(guān)于人類互動的研究還主要依賴于某一特定時段個人填答的調(diào)查數(shù)據(jù)。而技術(shù)發(fā)展帶來的海量數(shù)據(jù)[1],能夠極大的改善這一現(xiàn)象。例如,往來的電子郵件數(shù)據(jù)中展示了不同的時間段里人們之間互動關(guān)系的結(jié)構(gòu)和內(nèi)容,據(jù)此我們可以研究人們之間的關(guān)系如何隨時間而變化,幫助我們思考一系列人類互動行為的問題:一個團體內(nèi)部之間的關(guān)系究竟是怎么樣的,是已經(jīng)達到了穩(wěn)態(tài)很少出現(xiàn)變化,還是他們之間的關(guān)系一直發(fā)生著劇烈的波動[2]?優(yōu)秀的團隊和個人具備怎樣的互動模式[3]?
同樣,我們還能夠考察宏觀的社會網(wǎng)絡(luò)[4],觀察它如何隨著時間演變。移動電話公司,大型互聯(lián)網(wǎng)公司Google、Yahoo擁有大量的用戶交流信息數(shù)據(jù),這些數(shù)據(jù)能不能描繪出一張社會通信模式的復(fù)雜圖景,而這張圖景又如何影響經(jīng)濟生產(chǎn)力和公共健康?手機使得追蹤人類活動變得方便快捷[5,6],同時人類活動數(shù)據(jù)可以幫助我們研究流行病如何通過個體傳播等重要問題。
總之,互聯(lián)網(wǎng)提供了一個全新的途徑來理解人們之間的連接[7]。仔細思考一下,在剛剛過去的政治選舉時期,如果能夠追蹤被火熱傳播的論點、謠言、政治立場或者博客圈中的一些談?wù)揫8]以及網(wǎng)絡(luò)上的“沖浪”行為[9],每一個選民最關(guān)心的問題將會變得顯而易見。
來自博客圈的數(shù)據(jù)。顯示的是一個政治博客社區(qū)內(nèi)的鏈接結(jié)構(gòu)(從2004年開始),其中紅色節(jié)點表示保守派的博客,藍色節(jié)點為自由主義博客、橙色線代表從自由主義連接到保守主義,紫色線代表從保守主義連接到自由主義。每個博客的大小反映了其他博客鏈接到它的數(shù)量。轉(zhuǎn)載自參考文獻[7]互聯(lián)網(wǎng)所營造的虛擬世界,自然而又輕松的捕獲了個體行為的完整記錄,這為原本不可能實現(xiàn)的研究提供了豐富的數(shù)據(jù)基礎(chǔ)[10]。例如,這些完整的個人記錄幫助我們了解一個人在社交網(wǎng)絡(luò)中的位置是如何影響他們的喜好、心情、甚至是身心健康[11]。自然語言處理技術(shù)的發(fā)展(NLP)也大大提高了我們分析大量文本數(shù)據(jù)的能力[12]。
未來,我們希望,對社會的認知不再通過手動記錄面對面交流者的信息來實現(xiàn),而是通過各種各樣的電子設(shè)備自動生成和記錄社交信息??偠灾?,計算社會科學(xué)正在以前所未有的廣度、深度以及規(guī)模搜集與分析數(shù)據(jù),但與此同時,計算社會科學(xué)的興起與發(fā)展卻遭遇著重重阻礙。
3. 計算社會科學(xué)研究障礙
在研究范式上,現(xiàn)有的解釋人類行為的理論和范式是在無法獲取和處理幾千萬兆的人類交互信息數(shù)據(jù)的時候發(fā)展和建立起來的。比如說,基于幾十個人某一時刻的數(shù)據(jù)而建構(gòu)的社會網(wǎng)絡(luò)理論如何能解釋上百萬人之間的相互關(guān)系呢?關(guān)于人們?nèi)绾位拥拇罅啃屡d數(shù)據(jù)可以為研究人類的集體行為提供新的視角,但我們目前社會科學(xué)的研究范式并不一定會接受。
推進計算社會科學(xué)還存在著很多制度性障礙。計算社會科學(xué)與物理和生物學(xué)的研究問題不同,在觀察與干預(yù)研究對象過程中也存在著不同的挑戰(zhàn)。在物理學(xué)和生物學(xué)實驗中,夸克和細胞不像人類一樣,會因為別人的觀察而不自覺或者刻意的掩蓋自己的行為,它們乖乖的聽從人類的干預(yù)而不會反抗。
就基礎(chǔ)條件而言,從社會科學(xué)到計算社會科學(xué)所要解決的困難要比從生物學(xué)到計算生物學(xué)之間克服的困難大得多,究竟為什么會這樣呢?主要是從社會科學(xué)到計算社會科學(xué)的發(fā)展需要解決分布式監(jiān)控、數(shù)據(jù)使用許可權(quán)獲取和加密等問題,在社會科學(xué)領(lǐng)域中這些資源都較為缺乏。
也許最令人頭疼的問題還是數(shù)據(jù)的獲取和保護,目前很多研究所需數(shù)據(jù)都涉及到個人隱私。以美國AOL公司事件為例[13],在2006年8月,AOL公司公布了2006年3月1號到5月31號這3個月用戶的真實搜索記錄,包括1900萬搜索,1080多萬不一樣的搜索詞,還有65萬8000個用戶ID(美國AOL公司是一家在線信息服務(wù)公司,可提供電子郵件、新聞組、教育和娛樂服務(wù),并支持對因特網(wǎng)訪問,2015年被威瑞森通信(Verizon Communications)收購)。
雖然用戶的ID是匿名的,但如果你足夠細心認真的話,還是可能從這8000多個用戶中發(fā)現(xiàn)足夠多的信息。有一位記者就從搜索的地址和姓名中快速找到了一位62歲的老太太,并且老太太證實了那些羅列出來的搜索詞確實是她的。你還可以從搜索詞中看到這樣一些關(guān)鍵詞(來源:https://www.seozac.com/other-se/aol-data/)
1. 怎樣炸掉一棟樓
2. 怎樣給別人下藥
3. 怎樣制造炮彈
4. 怎樣攻入別人的電腦
5. 怎樣殺死太太
6. 怎樣殺人能夠不留痕跡
.......
AOL公司做出的這件蠢事給社會帶來了一場大混亂,雖然該網(wǎng)頁幾個小時之后就被撤下,但數(shù)據(jù)卻被網(wǎng)友們在互聯(lián)網(wǎng)上廣泛傳播,這也為私人公司擅自分享私人數(shù)據(jù)敲了警鐘。
設(shè)想現(xiàn)在,如果谷歌、百度、天貓、騰訊、京東等互聯(lián)網(wǎng)巨頭突然公布了所有人的搜索記錄、聊天記錄、購物記錄等,更不幸的是,如果你瀏覽器的登錄昵稱是你的真實名字,同時你多次在瀏覽器中搜索你家附近的加油站、超市等信息,并且在天貓購物平臺中多次輸入你的地址,那么你可能很快就被定位。根據(jù)你的搜索記錄,你將被貼上各種各樣的標(biāo)簽,“房奴”“彩妝迷”以及“二次元”等。更可怕的是,你的電話可能會被各種銷售公司打爆,生活將變得一塌糊涂。因此,為了保護個人的數(shù)據(jù)隱私和企業(yè)的利益,為了能讓這些數(shù)據(jù)發(fā)揮作用從而促進科學(xué)研究的進步,企業(yè)和科學(xué)家之間建立起合作共贏的數(shù)據(jù)分享模式是非常有必要的??傮w來說,妥當(dāng)?shù)靥幚黼[私問題是非常必要的。最近美國國家研究委員會有關(guān)地理信息系統(tǒng)的報告就特別指出,即使是非常仔細地匿名化數(shù)據(jù),還是有可能重新分析出個體的隱私數(shù)據(jù)[14]。
去年,美國國家健康局和惠康信托基金會突然停止了一些基因數(shù)據(jù)庫的在線獲取功能[15]。盡管這些數(shù)據(jù)只是非常簡單地報告了某些特定的遺傳標(biāo)記的總頻率,根本沒有包含個人信息,一些研究者仍然認為,基于數(shù)據(jù)庫中每個個體的大量數(shù)據(jù),依照現(xiàn)有的統(tǒng)計技術(shù),依舊能夠重新定位到個體[16]。
因為一次偶然的違背個人隱私事故的發(fā)生,就可能使得社會對信息共享深惡痛絕,甚至?xí)C布一些扼殺計算社會科學(xué)發(fā)展的法律條文。此時我們迫切需要制定合理的規(guī)章制度,既能夠降低信息泄露風(fēng)險,又可以保留數(shù)據(jù)的研究價值。作為學(xué)術(shù)界自我管理的核心制度,美國機構(gòu)審查委員會(IRB)需要加強他們的科技知識以了解新技術(shù)對于個體的潛在侵權(quán)和傷害,因為他們目前的規(guī)定中有關(guān)傷害的定義已經(jīng)難以評估這些新型的傷害。IRB的審查員們現(xiàn)有的技術(shù)也很難判斷數(shù)據(jù)有沒有“真正的匿名化”。除了上述問題外,IRB可能有必要建立起一個處理數(shù)據(jù)安全問題的部門。目前,已經(jīng)有很多私人企業(yè)手中握有大量的數(shù)據(jù),但卻沒有一個統(tǒng)一的標(biāo)準(zhǔn)來保護數(shù)據(jù)安全。如果科學(xué)家們要用這些數(shù)據(jù)做研究,就需要考慮到數(shù)據(jù)的隱私問題,開發(fā)技術(shù)保護個人數(shù)據(jù)的隱私,這些技術(shù)將會反過來幫助政府和公司保護數(shù)據(jù)安全和客戶的隱私[17]。
4. 結(jié)語
與其他新興交叉學(xué)科一樣(如:可持續(xù)發(fā)展科學(xué)),若要發(fā)展新興的計算社會科學(xué),就需要建立新的范式培養(yǎng)新的學(xué)者。大學(xué)中終身教職評定委員會和各個期刊的編輯部需要積極地鼓勵新興學(xué)者在跨學(xué)科建設(shè)方面做出的努力。最開始,計算社會科學(xué)的發(fā)需要社會科學(xué)和計算機科學(xué)的學(xué)者組成團隊一起努力,但來自不同學(xué)科的學(xué)者努力是遠遠不夠的,計算社會科學(xué)的發(fā)展最終還是取決于學(xué)術(shù)界愿不愿意培養(yǎng)計算社會科學(xué)家、具有計算相關(guān)知識的社會科學(xué)家或者是具有社會科學(xué)知識的計算機科學(xué)家團隊。好在認知科學(xué)的出現(xiàn)為計算社會科學(xué)的發(fā)展提供了一個很好的范例。認知科學(xué)的研究涉及從神經(jīng)生物學(xué)到哲學(xué)到計算機科學(xué)等各個領(lǐng)域。它吸引了大量資源投入來創(chuàng)建一個共同領(lǐng)域,并在上一代為公共事業(yè)創(chuàng)造了巨大的進步。我們認為計算社會科學(xué)具有類似的潛力,值得進行類似的投入。
參考文獻
[1] D. Roy et al., “The Human Speech Project,” Proceedings of the 28th Annual Conference of Cognitive Science Society, Vancouver, BC, Canada, 26 to 29 July 2009.
[2] J. P. Eckmann et al. Proc. Natl. Acad. Sci. U.S.A. 101, 14333 (2004).
[3] S. Aral, M. Van Alstyne, “Network Structure & Information Advantage,” Proceedings of the Academy of Management Conference, Philadelphia, PA, 3 to 8 August 2007.
[4] J.-P. Onnela et al., Proc. Natl. Acad. Sci. U.S.A. 104,7332 (2007).
[5] T. Jebara, Y. Song, K. Thadani, “Spectral Clustering and Embedding with Hidden Markov Models,” Poceedings of the European Conference on Machine Learning, Philadelphia, PA, 3 to 6 December 2007.
[6] M. C. González et al., Nature 453, 779 (2008).
[7] D. Watts, Nature 445, 489 (2007).
[8] L. Adamic, N. Glance, in Proceedings of the 3rd International Workshop on Link Discovery (LINKDD 2005), pp.36–43;
http://doi.acm.org/10.1145/1134271.1134277.
[9] J. Teevan, ACM Trans. Inform. Syst. 26, 1 (2008).
[10] W. S. Bainbridge, Science 317, 472 (2007).
[11] K. Lewis et al., Social Networks 30, 330 (2008).
[12] C. Cardie, J. Wilkerson, J. Inf. Technol. Polit. 5, 1 (2008).
[13] M. Barbarao, T. Zeller Jr., “A face is exposed for AOL searcher No. 4417749,” New York Times, 9 August 2006, p. A1.
[14] National Research Council, Putting People on the Map: Protecting Confidentiality with Linked Social-Spatial Data, M. P. Gutmann, P. Stern, Eds. (National Academy Press, Washington, DC, 2007).
[15] J. Felch. “DNA databases blocked from the public,” Los Angeles Times, 29 August 2008, p. A31.
[16] N. Homer, S. Szelinger, M. Redman, D. Duggan, W. Tembe, PLoS Genet. 4, e1000167 (2008).
[17] M.V.A. has applied for a patent on an algorithm for protecting privacy of communication content.
(參考文獻可上下滑動查看)
論文下載地址:
http://www.davidlazer.com/sites/default/files/publications/12_DL_Science_Feb_09_%26_Supporting.pdf
社會計算系列讀書會啟動招募
隨著大數(shù)據(jù)的持續(xù)積累和數(shù)字技術(shù)的迭代,社會計算(social computing)這一交叉領(lǐng)域正快速興起,社交網(wǎng)絡(luò)分析、自然語言處理、機器學(xué)習(xí)、系統(tǒng)動力學(xué)、多主體建模等技術(shù)在這一領(lǐng)域碰撞融合,逐漸挖掘出信息時代社會行為的深層規(guī)律。
集智俱樂部以「社會計算」為主題,組織為期10-12周的讀書會,多位專家牽頭,研讀經(jīng)典和前沿文獻,交流激發(fā)科研靈感。讀書會由王碩老師發(fā)起,專家顧問團包括孟小峰、羅家德、王曉、呂鵬、王靜遠、李勇等多位老師。
詳情以及報名方式見:
原標(biāo)題:《Science經(jīng)典回顧:計算社會科學(xué)宣言》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




