下載客戶端

登錄

Science最新綜述：計算社會科學十年，反思與展望

2020-09-05 17:20

來源：澎湃新聞·澎湃號·湃客

聽全文

原創(chuàng) D. Lazer等集智俱樂部

導語

2009年2月6日，David Lazer、Alex Pentland為首的15位學者，標志著這一交叉領域的誕生。時隔十年，今年8月28日，David Lazer、Alex Pentland,、Duncan Watts領銜的15位學者在Science的政策論壇專欄發(fā)表文章，反思計算社會科學領域研究的不足，包括：數(shù)據(jù)分享、研究倫理以及激勵機制，同時提出五條建議：加強協(xié)作、完善新型數(shù)據(jù)基礎設施、注重倫理和法律以及社會影響、重組大學組織結(jié)構(gòu)，解決實際問題。

論文題目：

Computational social science: Obstacles and opportunities

論文地址：

https://science.sciencemag.org/content/369/6507/1060

過去十年，計算社會科學 (Computational Social Science，CSS) 蓬勃發(fā)展，研究人員利用觀察數(shù)據(jù)、實驗設計和大規(guī)模仿真 (large-scale simulation) 發(fā)表了海量論文，這在之前是難以想象的。這些研究極大地提高了人們對社會不平等、傳染病傳播等重要社會現(xiàn)象的認知。學院中支持計算社會科學的機構(gòu)也大幅增加，全球范圍內(nèi)跨學科、跨數(shù)據(jù)源的會議，研討會，與暑期學校數(shù)量激增。但在一些重要方面計算社會科學尚有一些不足，許多制度性結(jié)構(gòu)仍處于萌芽狀態(tài)，包括研究倫理、教學法以及數(shù)據(jù)基礎設施等方面。我們提出了解決這些不足的方法，特別針對增強大學組織與該領域的智力需求之間的協(xié)調(diào)性。

我們將計算社會科學定義為對復雜的、通常是大規(guī)模人類行為 (有時是仿真的) 數(shù)據(jù)計算方法的開發(fā)和應用[1]。該領域的知識前身包括對空間數(shù)據(jù)、社交網(wǎng)絡、以及人類對文本與圖像編程的研究。傳統(tǒng)定量社會科學橫向研究案例、縱向研究變量，且通常假設觀察值之間具有獨立性，而計算社會科學關(guān)注的則涵蓋了語言、位置與運動、網(wǎng)絡、圖像以及視頻多種內(nèi)容，并應用統(tǒng)計模型來獲取數(shù)據(jù)中的多重依賴性。一個由社會科學家、計算機科學家、統(tǒng)計物理學家和其他領域的研究人員組成的松散的智力群體可以在計算社會科學這一領域聯(lián)合起來。

高校的失調(diào)

一般來講，多數(shù)大學在跨學科工作方面的激勵機制和結(jié)構(gòu)都缺乏統(tǒng)一性。計算社會科學的學科訓練大多是孤立的，將計算科學融入社會科學與將社會科學融入計算科學的進展一直十分緩慢，例如：訓練社會科學家學習如何編程，計算機科學家研究設計這些方向?？鐚W科合作往往得不到鼓勵，甚至遭遇重重阻礙。計算研究人員和社會科學家通常在大學不同位置的不同單位工作，幾乎沒有相關(guān)機制將他們連結(jié)在一起。分散的編制模式，不利于各單位之間的協(xié)作，常常導致低效的重復。

科研評估工作，如分配研究資金的英國“研究卓越框架” (Research Excellence Framework) ，通常也都側(cè)重于單一學科內(nèi)部，這就意味著多學科研究可能得不到認可和獎勵。同樣地，大學晉升制度也并不重視多學科學者。大學里的計算研究基礎設施往往不能很好地支持大規(guī)模以及敏感數(shù)據(jù)集的分析，這些工作對數(shù)據(jù)安全性、大量研究人員訪問以及計算能力都有要求。這些問題在學術(shù)界已經(jīng)得到了一定程度上的解決（例如基因組數(shù)據(jù)的使用），但在計算社會科學領域中，相關(guān)解決辦法仍未付諸實踐。

不適當?shù)臄?shù)據(jù)共享范式

當前計算社會科學中用于共享大規(guī)模敏感數(shù)據(jù)的模式是一個“混合包“，在與政府合作的基礎上相關(guān)研究取得了很好的成果，特別是在經(jīng)濟學領域下，分析不平等現(xiàn)象[2]以及勞動力市場的動態(tài)[3]。目前已經(jīng)出現(xiàn)了一些新興的、資源豐富的行政數(shù)據(jù)研究平臺，可以在保護隱私的前提下，分析微觀層面數(shù)據(jù)[4]。這些為計算社會科學與私營公司的潛在合作，提供了重要的經(jīng)驗支持，包括制定一個既能保證敏感數(shù)據(jù)的安全、又能將其用于分析研究的方案。(例如，差異性隱私方面的創(chuàng)新）。

然而，私營企業(yè)的價值取向與政府不同，我們可以料想到，相關(guān)的研究進展會更少。政府機構(gòu)手中的數(shù)據(jù)是為公眾托管的，而企業(yè)持有的數(shù)據(jù)通常被視為重要的專利資產(chǎn)。對政府機構(gòu)的利益相關(guān)者而言，共享數(shù)據(jù)所固有的公共責任可能被視為一種積極因素，但對私營企業(yè)的股東來說，情況就并非如此了。這樣一來，研究人員從私營企業(yè)獲得研究數(shù)據(jù)的可能性不大。即使能夠拿到數(shù)據(jù)，通常也是利用一個拼湊而成的系統(tǒng)，該系統(tǒng)中某些數(shù)據(jù)是通過公共應用程序接口 (APIs) 獲取的；或者通過研究人員在與有關(guān)企業(yè)的合作過程中獲得，這種情況下往往需要在該企業(yè)工作；還有一些是通過個人關(guān)系與一次性安排獲得。一般而言這些數(shù)據(jù)受到保密協(xié)議的約束、且可能存在潛在的利益沖突。研究人員獲取數(shù)據(jù)的另一種選擇是，購買專門為市場研究收集的專利數(shù)據(jù) (如Comscore、Nielsen等) ，這種方法有時并不公開透明，且其定價之高也令人望而卻步。

雖然這種方法看起來很實用，但我們認為它將不再是計算社會科學領域獲取數(shù)據(jù)的主流途徑。在研究領域的起步階段，這些數(shù)據(jù)看起來包羅萬象，實際可用的資源卻非常有限。而經(jīng)由這種方法獲取的數(shù)據(jù)的可得性和可及性，也是我們的擔憂。

首先，許多企業(yè)在持續(xù)減少可從其平臺抓取的數(shù)據(jù)[5]。這樣做有時是有充分理由的，例如：監(jiān)管法規(guī)（歐盟通用數(shù)據(jù)保護法規(guī) (GDPR)）、公司丑聞 (Cambridge Analytica and Facebook) 等，但這樣帶來的不利影響，就是阻塞了有潛在價值的研究途徑。私人與研究人員之間的合作是完全自愿的，這樣數(shù)據(jù)的可獲得性很容易受到私人的任意性和不可預測變化的影響，使得這種獲取數(shù)據(jù)的方法在本質(zhì)上并不可靠，還會導致科學研究存在潛在偏差。

其次，消費品和平臺生成的數(shù)據(jù)，并不完全適用于科學研究[6]。在線平臺的用戶和服務未必能代表普通民眾，且他們的行為也可能存在未知的偏差。因為平臺從未被設計用來回答研究問題，所以可能沒有收集到與研究最相關(guān)的數(shù)據(jù)（例如對信息擴散感興趣的研究人員會統(tǒng)計轉(zhuǎn)發(fā)的內(nèi)容），或者數(shù)據(jù)收集會被系統(tǒng)中其他因素所混淆（例如：關(guān)于用戶喜好的推斷會被公司排名和推薦算法所影響）。

平臺的設計、功能、數(shù)據(jù)記錄和數(shù)據(jù)訪問策略隨時可能變化，而平臺所有者沒有理由為了研究者的利益而保持工具的一致性。由此，基于此類“已發(fā)現(xiàn)”數(shù)據(jù)做出的研究難以避免地會受到數(shù)據(jù)內(nèi)部與外部有效性的干擾。特別是基于平臺的數(shù)據(jù)，可能會隨著平臺的變化而迅速貶值[7]。而且，出于隱私和知識產(chǎn)權(quán)方面的考量，研究團體往往無法獲得原始數(shù)據(jù)，或者在未來可能無法獲得，這就妨礙了研究結(jié)果的可重復性與復制性。

不足的研究規(guī)范

最后，我們目前仍未能制定出相關(guān)科研方面的“行規(guī)”。

盡管之前就曾呼吁制定此類指導，且研究中已出現(xiàn)重大失誤，破壞了公眾的信任，但計算社會科學領域始終未能充分闡明收集和分析人的數(shù)字數(shù)據(jù)的明確原則和機制，以及如何最大限度地減少對人傷害的可能性。極少有大學提供技術(shù)、法律法規(guī)或道德方面的指導來適當控制和管理敏感數(shù)據(jù)，機構(gòu)審查委員會仍沒有普遍適應和一致應對由數(shù)字追蹤數(shù)據(jù)的帶來的獨特倫理挑戰(zhàn)。最近美國修改的關(guān)于研究對象為“人”的課題 (human subjects research) 倫理的共同規(guī)則 (Common Rule)，也并沒有完全解決這些問題。

例如，網(wǎng)絡世界里，我們分享個人信息的同時，其實也提供了與自己有相關(guān)聯(lián)系的人的信息，我們該如何處理這一問題呢？圍繞 “同意”的挑戰(zhàn)，凸顯了管理敏感數(shù)據(jù)安全，與重塑機構(gòu)審查程序和道德規(guī)范的重要性。然而，很少有大學會整合基礎設施和監(jiān)督程序，來最大限度地降低安全漏洞的風險。

劍橋分析公司以及其他類似的事件，引發(fā)了一場圍繞數(shù)據(jù)主權(quán)的激烈討論。隱私權(quán)倡導者和企業(yè)之間的戰(zhàn)線已經(jīng)拉開，前者試圖盡量減少對所有個人數(shù)據(jù)的收集和分析，而后者則想要以向消費者提供價值為基礎，來證明其數(shù)據(jù)收集策略的合理性。

在公開討論中，往往缺少對相關(guān)政策的呼吁，這些政策鼓勵或授權(quán)對私人數(shù)據(jù)以符合倫理道德的方式來使用，以維護包括隱私、自主、安全、人類尊嚴、正義與權(quán)力制衡在內(nèi)的公共價值，進而實現(xiàn)重要的公共目標，如預測疾病傳播、關(guān)注社會公平與機會以及經(jīng)濟崩潰等。此外，對學術(shù)界基礎設施的投資也是缺位的。這些投資可以推動知識生產(chǎn)并維護個人隱私。

建議

對于上述問題，我們提出了五個方面的建議。

加強協(xié)作

盡管存在上述局限性，由私人企業(yè)收集的數(shù)據(jù)仍非常重要且價格不菲，無法通過任何其他方式獲取，且這些數(shù)據(jù)過于普遍，難以為公眾所用，也難以用于公共資助的研究[8]。與其回避與產(chǎn)業(yè)界的合作，研究社群應該圍繞研究倫理、透明度、研究者自主權(quán)、與研究結(jié)果可復制性，制定可執(zhí)行的行業(yè)指導方針。我們預計，未來幾年將出現(xiàn)許多對利益相關(guān)方具有激勵作用的方法。最廣泛持久的模型是開放的、匯總的數(shù)據(jù)，如人口普查數(shù)據(jù)。這種模型是為共享政府數(shù)據(jù)而開發(fā)的，強調(diào)安全和隱私，也為與企業(yè)數(shù)據(jù)合作提供了前景。聯(lián)合國可持續(xù)發(fā)展目標 (United Nations Sustainable Development Goals) 呼吁在公共-私人數(shù)據(jù)源方面建立伙伴關(guān)系，以在全世界范圍內(nèi)提供各種新穎多樣的逐個鄰域措施[9]。世界各個地方的國家統(tǒng)計局，都在默默地為達成這種關(guān)系作出努力，但由于資金缺乏，進展較為緩慢。安全的行政數(shù)據(jù)中心的發(fā)展，再加上授予訪問權(quán)、監(jiān)測產(chǎn)出和強制要求遵守隱私和道德規(guī)則的行政基礎設施，都為計算社會科學向前發(fā)展提供了一種模式。如上所述，這一模式已經(jīng)在政府行政數(shù)據(jù)領域得到證明。在少數(shù)情況下，電信公司和銀行也已經(jīng)證明。

類似的模式在學術(shù)研究中很少見，但正變得越來越普遍。荷蘭的社會科學和經(jīng)濟創(chuàng)新開放數(shù)據(jù)基礎設施就是一個例子。Facebook已通過多種模式與學術(shù)界進行合作。在最初的幾年中，它著重于一次性合作，主要是通過非正式協(xié)商。2016年大選后，F(xiàn)acebook啟動了Social Science One來提供可訪問的新聞消費的匯總數(shù)據(jù)。盡管資源充足，但在數(shù)據(jù)提供方面仍面臨著挑戰(zhàn)[10]。

2019年新型冠狀病毒 (COVID-19) 在建立研究人員和企業(yè)之間的伙伴關(guān)系方面發(fā)揮了特殊作用，這有助于我們了解疾病的發(fā)展軌跡。(包括美國在內(nèi)的許多國家，COVID-19也說明了關(guān)于該疾病的許多公共數(shù)據(jù)存在斷裂性和政治偶然性。) Twitter已為獲得批準的研究人員提供了有關(guān)COVID-19的API接口，Cuebiq等位置數(shù)據(jù)公司，也提供了對匿名移動數(shù)據(jù)的訪問權(quán)限。在COVID-19被載入史冊之后，有一些問題仍懸而未決，例如：這些數(shù)據(jù)收集工作將在何種程度上繼續(xù)進行，以及如果繼續(xù)如何使它們與學術(shù)界的關(guān)鍵研究規(guī)范（如：透明度、可再生產(chǎn)性、復制性和同意性）保持一致等。（詳見：）

與Facebook相關(guān)的大選實例凸顯了研究人員與企業(yè)之間潛在的對抗性作用。當代計算社會科學領域的一個核心問題 (如下所述) 是特定的社會技術(shù)系統(tǒng)，以何種方式，在社會中發(fā)揮積極和消極的作用。如果企業(yè)認為透明地研究和預測這些問題符合自己的長遠利益，那么研究人員與企業(yè)之間緊張的對抗關(guān)系可能會得到部分（但不完全）地緩解。然而，即使在最樂觀的情況下，研究產(chǎn)生的見解中的公眾利益與企業(yè)利益之間也將存在分歧。

從更廣泛的角度而言，學術(shù)界需要為專業(yè)實踐提供精心制定的指導方針。企業(yè)對研究過程能有什么控制權(quán)？顯然，企業(yè)對論文內(nèi)容擁有否決權(quán)顯然是不可接受的，但任何數(shù)據(jù)共享協(xié)議的現(xiàn)實是，研究人員與企業(yè)之間有協(xié)商的調(diào)查領域。還有很多問題，諸如被提供用于復制的數(shù)據(jù)有哪些要求、研究人員對訪問公司內(nèi)部數(shù)據(jù)管理和策劃流程的需求是什么等等。

完善新型數(shù)據(jù)基礎設施

為了支持對社會具有重要挑戰(zhàn)的科學研究，保護隱私的共享數(shù)據(jù)基礎設施，可以在不同人群中，收集具有科學動機的數(shù)字蹤跡，也可以讓大量個體參與到大型虛擬實驗室的設計實驗中。共享數(shù)據(jù)基礎設施建設可以貢獻他們的數(shù)據(jù)與時間來支持公共利益，也可以明確的補償或獎勵來驅(qū)動。新型數(shù)據(jù)基礎設施應使用最先進的安全技術(shù)，并需根據(jù)數(shù)據(jù)的敏感度制定不同等級的安全措施清單。這些努力需要在大學內(nèi)與跨大學兩個層次進行?；A設施應獲取并記錄描述數(shù)據(jù)收集過程的元數(shù)據(jù)，并結(jié)合合理的原則進行數(shù)據(jù)收集和使用。萊布尼茨社會科學研究所的安全數(shù)據(jù)中心，就是一個用于敏感數(shù)據(jù)研究的共享基礎設施的例子。此外，抓取主要平臺上的算法驅(qū)動行為，是很重要的[11, 12]。其一是因為算法行為愈發(fā)重要，其二因為在基于平臺的數(shù)據(jù)收集中，算法的變化會產(chǎn)生巨大的偽像。還有一點至關(guān)重要的，即法律框架應允許并授權(quán)以合乎道德的方式來獲取和收集有關(guān)個人數(shù)據(jù)，并對平臺進行嚴格審查。

注重倫理、法律與社會影響

我們需要制定與21世紀新出現(xiàn)的科學機遇與風險相適應的倫理框架。社會科學可以幫助我們理解社會的結(jié)構(gòu)性不平等，計算社會科學則需要打開數(shù)據(jù)驅(qū)動算法的 “黑匣子”。這些算法做出過很多影響重大的決策，但也會帶有偏見。人類基因組計劃投入超過3億美元，作為其“倫理、法律和社會影響”計劃的一部分，“以確保社會學會只以有益的方式使用信息”。在倫理研究方面，尚未有現(xiàn)成的解決方案。專業(yè)協(xié)會需要致力于制定新的道德準則——互聯(lián)網(wǎng)研究人員協(xié)會制定的準則，就是努力解決這一問題的一個例子。同時還需要公共出資和私人基金會的大量投資，來開發(fā)針對研究人員的知情監(jiān)管框架和倫理道德指導，這些也將指導政府和組織在這一領域的實踐。

重組大學組織結(jié)構(gòu)

從天文學到人類學，計算科學與越來越多的領域緊密相連。為了反映上述學科特征，需要在典型的“孤島式“大學中進行機制創(chuàng)新，建立連接不同領域研究人員的組織結(jié)構(gòu)，獎勵跨學科的專業(yè)合作。機構(gòu)創(chuàng)新的成功范例包括任命具有多部門隸屬關(guān)系的教職員工（例如：橫跨計算機科學與社會科學）、配置由不同領域的教員組成的研究中心以及分配內(nèi)部資金來支持多學科合作。為了培育新一代科學家，還需重新構(gòu)思與協(xié)調(diào)本科生與研究生的課程發(fā)展。在大學內(nèi)部必須要有廣泛的努力來授權(quán)和執(zhí)行倫理研究實踐，如：集中協(xié)調(diào)的、安全的數(shù)據(jù)基礎設置。

解決實際問題

上述建議需要從公共與私人來源獲得資源，按照目前的社會科學資助標準，這些資源都是非同尋常的。為了證明如此巨大的投資是合理的，計算社會科學家必須證明其研究結(jié)果，將不僅僅是發(fā)表讓其他研究人員感興趣的期刊文章，而是要闡明學術(shù)、產(chǎn)業(yè)和政府的合作以及與專門的科學基礎設施如何結(jié)合起來，以及研究將如何解決重要的社會問題，如：保護個人人身安全、提高國家安全、促進經(jīng)濟繁榮、培養(yǎng)社會包容性、多樣性、公平性和獲取性、增強民主等等。目前在全球應對大型流行疾病的過程中，計算社會科學呈現(xiàn)出自身廣闊的發(fā)展?jié)摿?。除了在學術(shù)界之外產(chǎn)生有意義的成果外，追求這一目標還可能帶來更多可復制、累積且連貫的科學[15]。

參考文獻：

[1] D. Lazer et al., Science 323, 721 (2009).

[2] R.Chetty,N.Hendren,P.Kline,E.Saez,Q.J.Econ.129, 1553 (2014).

[3] J. J. Abowd, J. Haltiwanger, J. Lane, Am. Econ. Rev. 94, 224 (2004).

[4] A.Reamer,J.Lane,ARoadmaptoaNationwideData Infrastructure for Evidence-Based Policymaking (2018); https://journals.sagepub.com/doi/ abs/10.1177/0002716217740116.

[5] D.Freelon,Polit.Commun.35,665(2018).

[6] M.J.Salganik,BitbyBit:SocialResearchintheDigital Age (Princeton Univ. Press, 2017).

[7] K.Munger,Soc.MediaSoc5,205630511985929(2019).

[8] Social Science Research Council, To Secure Knowledge: Social Science Partnerships for the Common Good (2018); www.ssrc.org/to-secure-knowledge/.

[9] IEAG,UN,“AWorldthatCounts—MobilisingtheData Revolution for Sustainable Development.” Independent Expert Advisory Group on a Data Revolution for Sustainable Development (2014).

[10] G.King,N.Persily,“ANewModelforIndustry-Academic Partnerships” (Working Paper, 2018); http://j.mp/2q1IQpH.

[11] A.Hanna?ketal.,inProceedingsofthe22nd International Conference on World Wide Web (ACM Press, New York, 2013), pp. 527–538.

[12] I.Rahwanetal.,Nature568,477(2019).

[13] Z.Obermeyer,B.Powers,C.Vogeli,S.Mullainathan, Science 366, 447 (2019).

[14] J. E. McEwen et al., Annu. Rev. Genomics Hum. Genet. 15, 481 (2014).

[15] D.J.Watts,Nat.Hum.Behav.1,0015(2017).

相關(guān)資料：

https://swarma.org/?p=12618

作者：D. Lazer等

譯者：茍澤鵬

審校：吳雨桐

編輯：鄧一雪