大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來了什么？

2022-12-09 08:15

來源：澎湃新聞·澎湃號·湃客

聽全文

大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來了什么？

摘要:

大數(shù)據(jù)和數(shù)據(jù)科學(xué)正在改變世界，催生社會科學(xué)家新的關(guān)注點，如互聯(lián)網(wǎng)對公民和媒體的影響、智慧城市的影響、網(wǎng)絡(luò)戰(zhàn)爭和網(wǎng)絡(luò)恐怖主義的可能性、精準醫(yī)療的影響以及人工智能和自動化的后果。伴隨著社會的這些變化，強大的新數(shù)據(jù)科學(xué)（data science）方法支持使用行政、互聯(lián)網(wǎng)、文本和音頻-視頻數(shù)據(jù)的研究。蓬勃發(fā)展的數(shù)據(jù)和創(chuàng)新方法提供了從數(shù)據(jù)中形成概念、進行描述性推理、進行因果推理和產(chǎn)生預(yù)測的新方法，從而有助于回答以前難以解決的社會問題。它們也帶來了挑戰(zhàn)，因為社會科學(xué)家必須掌握由復(fù)雜的算法產(chǎn)生的概念和預(yù)測的意義，權(quán)衡預(yù)測與因果推斷的相對價值，并應(yīng)對道德挑戰(zhàn)，因為社會科學(xué)家的方法，如動員選民的算法，會被政策制定者采用。

作者簡介:

Henry Brady 加州大學(xué)伯克利分校政治學(xué)與公共政策教授

編譯來源:

Brady, H. E. (2019). The challenge of big data and data science. Annual Review of Political Science, 22, 297-323.

本文作者：Henry Brady

引言

美國國家標準與技術(shù)研究院（NIST）在2015年關(guān)于大數(shù)據(jù)的框架報告中說：“大數(shù)據(jù)和數(shù)據(jù)科學(xué)正被當作流行語使用，是許多概念的組合”?！按髷?shù)據(jù)”（big data）一詞頻繁出現(xiàn)在媒體和學(xué)術(shù)期刊上，過去五年中，“數(shù)據(jù)科學(xué)”項目在學(xué)術(shù)界如雨后春筍般出現(xiàn)。2012年3月29日，白宮科技政策辦公室宣布了 "大數(shù)據(jù)研究與發(fā)展倡議"（Kalil 2012），該倡議建立在 "從計算機架構(gòu)和網(wǎng)絡(luò)技術(shù)到算法、數(shù)據(jù)管理、人工智能、機器學(xué)習(xí)，以及先進網(wǎng)絡(luò)基礎(chǔ)設(shè)施的開發(fā)和部署 "的倡議之上。從2014年到2017年，"大數(shù)據(jù) "每年在JSTOR中出現(xiàn)約560次，盡管在2000年之前的一個世紀中，它每年被提及不到一次，在2001年至2010年期間，平均每年只有約8次。在過去的五年里，至少有17個數(shù)據(jù)科學(xué)項目在美國主要的研究型大學(xué)開始實施（http://msdse.org/environments/），互聯(lián)網(wǎng)上充滿了數(shù)據(jù)科學(xué)書籍和課程的廣告，經(jīng)常有 "成為一名數(shù)據(jù)科學(xué)家 "的廣告。這些短語當然已經(jīng)流行起來，但它們對不同的人意味著不同的東西，有些人甚至懷疑它們是否確定了非常新的或有用的東西（例如，Boyd & Crawford 2012，Donoho 2017，Smith 2018）。

盡管這些術(shù)語并不完美，而且經(jīng)常圍繞著它們的夸張，但它們指出了對政治科學(xué)很重要的真實變化。大數(shù)據(jù)、數(shù)據(jù)科學(xué)以及人工智能、網(wǎng)絡(luò)基礎(chǔ)設(shè)施和機器學(xué)習(xí)等相關(guān)理念有助于本文討論的以下發(fā)展和趨勢：

1.來自大數(shù)據(jù)和數(shù)據(jù)科學(xué)的社會和政治變化。政府、軍隊、企業(yè)、非營利組織和人民所產(chǎn)生和獲得的數(shù)據(jù)的數(shù)量、速度、種類和真實性，與計算能力的巨大增長和數(shù)據(jù)科學(xué)方法的改進相結(jié)合，從根本上改變社會。大數(shù)據(jù)和數(shù)據(jù)科學(xué)正在創(chuàng)造新的現(xiàn)象，并提出了關(guān)于控制和操縱人民和人口、隱私的未來、信息的真實性、工作的未來以及其他許多與政治科學(xué)家有關(guān)的話題的基本問題。

2.包括政治科學(xué)家在內(nèi)的所有科學(xué)家可以獲得越來越多的數(shù)據(jù)。所有的科學(xué)都在受到這些變化的影響?；蚪M數(shù)據(jù)的數(shù)量每九個月翻一番，目前每天產(chǎn)生約10兆字節(jié)的數(shù)據(jù)；歐洲核子研究中心的大型強子對撞機每天產(chǎn)生140兆字節(jié)的數(shù)據(jù)。萬維網(wǎng)每天產(chǎn)生約1,500,000兆字節(jié)，這種數(shù)據(jù)流為社會科學(xué)家提供了研究 "社會的筋骨"（Weil 2012）和 "政府的神經(jīng)"（Deutsch 1963）的機會，這在過去是無法做到的。現(xiàn)在，政治科學(xué)家可以觀察和分析（有時是實時的）人們選擇消費的信息、政治行為者產(chǎn)生的信息、人們生活的環(huán)境以及人們生活的許多其他方面。

3.政治學(xué)家組織工作的新方式。在這種數(shù)據(jù)的沖擊下，政治學(xué)家可以通過熟悉新技術(shù)來重新思考他們?nèi)绾芜M行政治學(xué)研究，這些新技術(shù)有利于數(shù)據(jù)的獲取、管理、清理、分析和存檔。

4.政治學(xué)家提出的新問題。政治學(xué)家必須自問他們在概念形成、描述、因果推理、預(yù)測和預(yù)測未來方面要完成什么。在這一過程中，將發(fā)展出關(guān)于政治行為的新方法和新見解，并為政治機構(gòu)提出新的設(shè)計。

5.處理有關(guān)政治科學(xué)研究的倫理問題。最后，政治科學(xué)家必須思考有關(guān)獲取、使用和公布信息的復(fù)雜倫理問題，以及可能濫用其模型和結(jié)果的問題。

在考慮這五個變化及其對政治科學(xué)的影響之前，我先介紹一下數(shù)據(jù)和計算能力的指數(shù)級增長，這導(dǎo)致了所謂的大數(shù)據(jù)和數(shù)據(jù)科學(xué)的突出地位。

大數(shù)據(jù)的數(shù)量、密度和種類不斷增加

社會科學(xué)家必須面對當前信息交流中的巨大變化，這些變化與19世紀交通的驚人變化相類似。1816年，使用馬匹驅(qū)動的驛車、騾子驅(qū)動的運河船或帆船，費城和魁北克之間的旅行需要四天以上。到了1860年，隨著蒸汽驅(qū)動的火車和汽船的出現(xiàn)，旅行的時間和費用下降了三分之二以上，同樣的旅行只需要一天多一點。這些變化創(chuàng)造了新的貿(mào)易網(wǎng)絡(luò)、新的移民機會、帶有通勤郊區(qū)的新型城市，以及對世界的新理解，對政治、經(jīng)濟和社會產(chǎn)生了巨大影響。

信息技術(shù)每隔20年就會發(fā)生一次變化，這在19世紀末、20世紀和21世紀初的歷史上是很常見的：電話（1870-1890年代）、留聲機（1870-1890年代）、電影（1890-1920年代）、廣播（1900-1920年代）、電視（1940-1950年代）、電腦主機（1940-1950年代）、個人電腦（1970-1980年代）、互聯(lián)網(wǎng)和萬維網(wǎng)（1980-2000年代）、手機（1980-2000年代）和智能電話（2000年代至今）。最根本的創(chuàng)新來自于從模擬設(shè)備到數(shù)字設(shè)備的轉(zhuǎn)變，從20世紀50年代開始，在20世紀90年代及其后迅速發(fā)展。這些變化帶來了：(a)廣泛的數(shù)字數(shù)據(jù)化，其中無數(shù)的事件現(xiàn)在被數(shù)字記錄下來；(b)廣泛的連接性，其中事件和人被識別，以便他們可以相互連接；(c)普遍的網(wǎng)絡(luò)化，這樣人們被嵌入到一個互動用戶的社區(qū)中，成為更大網(wǎng)絡(luò)的節(jié)點；以及(d)無處不在的計算機編寫（computer authoring），其中計算機創(chuàng)造新的信息，成為社會系統(tǒng)和文化的一部分。政治學(xué)家引領(lǐng)了研究這些變化的方向。拉斯韋爾（Harold Lasswell）和多伊奇（Karl Deutsch）是研究媒體傳播及其對社會影響的早期學(xué)者。1983年，麻省理工學(xué)院的政治學(xué)家Ithiel de sola Pool研究了1960年至1977年美國大眾媒體（如廣播、電視、唱片、電影、報紙、書籍）和點對點媒體（電話、一等郵件、電報、傳真和數(shù)據(jù)通信）中的詞匯生產(chǎn)，發(fā)現(xiàn)這些媒體的字數(shù)每8年翻一番，每年增長約9%。他還發(fā)現(xiàn)，"印刷媒體每個字的成本越來越高，而電子媒體卻越來越便宜。" 此外，"盡管現(xiàn)代社會最大的文字流動是通過大眾媒體，但現(xiàn)在增長速度最快的是向個人提供信息的媒體，也就是點對點媒體"。最后，"從這些媒體中實際關(guān)注的文字每年僅增長2.9%"，因此，"所生產(chǎn)的每項信息都面臨著一個競爭更激烈的市場和平均較小的受眾"（Pool 1983, p. 609）。Pool預(yù)言了我們對現(xiàn)代傳播境況的大部分了解。它們發(fā)展迅速，越來越電子化和點對點，人們經(jīng)歷著信息過載和信息流的碎片化。也許最有先見之明的是，Pool還說："計算機網(wǎng)絡(luò)首次將點對點的媒介--數(shù)據(jù)通信的成本降低到大眾媒介的成本范圍"。

這些研究確定了四個值得注意的趨勢，上面簡要地提到了這些趨勢，它們產(chǎn)生了大數(shù)據(jù)革命：廣泛的數(shù)字數(shù)據(jù)化、廣泛的連接、網(wǎng)絡(luò)化和計算機編寫。首先，關(guān)于社會事件的數(shù)據(jù)如海嘯般涌現(xiàn)，數(shù)字通信正在超越模擬通信。這種廣泛的數(shù)字數(shù)據(jù)化（Cukier & Mayer-Schoenberger 2013, p.29）以一種可以輕易被計算機存儲和處理的格式創(chuàng)造數(shù)據(jù)。其次，由于點對點的傳播原則上比廣播更容易被追蹤，所以連接性很普遍。例如，廣播公司傳統(tǒng)上需要精心設(shè)計的調(diào)查操作（如尼爾森的媒體使用日記）來跟蹤他們的觀眾，而Netflix有關(guān)于其電影下載的即時數(shù)據(jù)。更為普遍的是，我們現(xiàn)在可以記錄和連接關(guān)于個人發(fā)帖、購買，甚至是隨意瀏覽的數(shù)據(jù)。數(shù)據(jù)化和連接性意味著曾經(jīng)短暫的事件現(xiàn)在可以被識別和研究。信息環(huán)境變化的第三個特點是網(wǎng)絡(luò)化，這對社會科學(xué)家特別重要。曾經(jīng)的傳播被歸類為人與人之間的傳播（如談話、信件或電話）或從一個來源到許多人的大眾傳播（如書籍、報紙、電影、廣播或電視），而現(xiàn)代傳播涉及中介的社會網(wǎng)絡(luò)，結(jié)合了兩種模式的特征（Neumann 2016, Schroeder 2018）。推特（Twitter）涉及到使用定義自我中介的關(guān)注領(lǐng)域的標簽，向許多追隨者發(fā)送的個人通信。臉書（Facebook）涉及擁有定制檔案的個人，他們擁有 "朋友 "網(wǎng)絡(luò)，并與分享信息的共同利益的用戶群有關(guān)聯(lián)。在所有這些媒體中，關(guān)于人們的特征和他們的搜索行為的知識被用來建議，有時甚至強加特定的行動或關(guān)系。這些新的溝通模式的影響還不清楚，但它們可能在政治、市場和文化這三個重要領(lǐng)域的運作方式有所不同（Schroeder 2018）。它們也可能產(chǎn)生重要影響，比如通過建立對不同意見封閉的網(wǎng)絡(luò)，增加政治極化的機會（Neumann 2016）。最后，我們現(xiàn)在生活在一個計算機可以編寫、出版和提供新形式信息的時代。社會科學(xué)的另一項工作是改進和理解這些過程。

政治學(xué)家工作的新方法

新課程：政治學(xué)教授必須開發(fā)新課程，并熟悉數(shù)據(jù)科學(xué)家開發(fā)的新技術(shù)。新課程應(yīng)該朝兩個方向發(fā)展。一門課程應(yīng)處理大數(shù)據(jù)的社會挑戰(zhàn)以及它們對政治的意義。Mergel（2016）為公共事務(wù)學(xué)院開發(fā)了一門課程，其中包含一些相關(guān)的內(nèi)容，包括政治、政府、公共衛(wèi)生和智能城市中的大數(shù)據(jù)部分，但它沒有關(guān)于媒體的部分，也沒有直接關(guān)注大數(shù)據(jù)帶來的數(shù)據(jù)所有權(quán)和使用、隱私和工作崗位流失等政治問題。第二門課程必須教給學(xué)生數(shù)據(jù)科學(xué)方法。對主要大學(xué)政治學(xué)系教授的方法課程的檢查表明，這一點正在順利進行。這些課程包括用R或Python編程，強調(diào)理解統(tǒng)計學(xué)的重采樣方法，對上述數(shù)據(jù)源的概述，以及對進行預(yù)測的方法和推斷因果關(guān)系的方法的仔細討論。此外，至少有一本輯錄（Alvarez 2016）總結(jié)了相關(guān)主題的良好選擇。這些課程都沒有涉及更深層次的理論問題，比如我們的認識論和本體論預(yù)設(shè)如何受到新方法的影響，社會中新的連接形式，以及人工智能的崛起。人們應(yīng)該對這種宏大的可能性持適當?shù)膽岩蓱B(tài)度，但Rogers（2013）、Mayer-Sch?nberger & Cukier（2014）、Mosco（2014）、Boullier（2015）和Salganik（2017）對當我們"讓世界自己意識和自我描述"（make the world self-aware and self-describing, Evans 2018, p. 141）時將會發(fā)生什么提供了一些思考。

新的研究管理方式：少數(shù)從事谷歌、Facebook或非常大的數(shù)據(jù)集的政治科學(xué)家可能要學(xué)習(xí)大數(shù)據(jù)架構(gòu)和處理大數(shù)據(jù)集的新的分散方法，如Hadoop、Hive、NoSQL和Spark，但對大多數(shù)人來說，這將是一種浪費。相反，政治學(xué)家可能會更好地關(guān)注數(shù)據(jù)清理、數(shù)據(jù)管理、可重復(fù)科學(xué)、數(shù)據(jù)的生命周期管理和數(shù)據(jù)可視化的新軟件。在此，我簡要地討論一下數(shù)據(jù)清洗和可重復(fù)性科學(xué)。一條推特（@BigDataBorat）描述了人們普遍認為的數(shù)據(jù)清理占用了研究中的大部分時間，他說："在數(shù)據(jù)科學(xué)中，80%的時間用于準備數(shù)據(jù)，20%的時間用于抱怨需要準備數(shù)據(jù)。" 當然，數(shù)據(jù)準備是繁瑣而耗時的（Kandel等人，2012）。DataWrangler（Kandel等人，2011）在一個像電子表格一樣的交互式界面中顯示數(shù)據(jù)，并允許研究者根據(jù)程序?qū)λ璧囊话戕D(zhuǎn)換的推斷，對數(shù)據(jù)的某一行進行修改，并在所有其他行的數(shù)據(jù)中重現(xiàn)。隨著用戶與系統(tǒng)的互動，系統(tǒng)會改進其推斷，甚至提出建議，從而幫助研究者進行改進。該系統(tǒng)會跟蹤對數(shù)據(jù)所做的工作，以便研究人員能夠確保它是成功的。它的免費版本是Trifacta Wrangler。另一種清理數(shù)據(jù)的方法是Tidyverse，它是一個免費的R程序集，可以用來創(chuàng)建一個整潔的數(shù)據(jù)集（Wickham 2014）?？蓮?fù)制的科學(xué)旨在使其他的研究者有可能 "重新創(chuàng)建項目的最終報告結(jié)果，包括關(guān)鍵的定量發(fā)現(xiàn)、表格和數(shù)字，只需給出一組文件和書面說明"（Kitzes等人，2017，第13頁）。因為這些工具使我們更容易獲得和重現(xiàn)研究成果，因為期刊越來越多地要求可重復(fù)性，因為政府一直在努力要求受資助者這樣做，所以學(xué)習(xí)這些方法是非常值得的。

政治學(xué)家提出的新問題

1. 數(shù)據(jù)科學(xué)從何而來？

數(shù)據(jù)科學(xué)的方法主要來自于計算機科學(xué)、統(tǒng)計學(xué)、圖書館或信息科學(xué)，有些則源于生物學(xué)家為模擬人腦中神經(jīng)元之間的聯(lián)系所做的努力，以及認知科學(xué)家（如多才多藝的政治學(xué)家赫伯特-西蒙）為發(fā)展人工智能所作的努力。這些不同流派的研究混合產(chǎn)生了混亂，因為類似的方法（如神經(jīng)網(wǎng)和邏輯回歸）在這些學(xué)科領(lǐng)域被稱為不同的名字，而使用人工智能或神經(jīng)網(wǎng)等名字會導(dǎo)致人們誤以為這些方法實際上是模仿人腦的工作方式。事實上，大多數(shù)方法可以直接翻譯成統(tǒng)計學(xué)語言（Sarle 1994, Warner & Misra 1996），與人類智能的聯(lián)系更多的是比喻。這種混亂也有一部分來自于這樣一個事實，即不同學(xué)科背景專家的關(guān)注點不同：直到最近，計算機科學(xué)家還在試圖解決模式識別問題，并以最少的錯誤推進預(yù)測性機器學(xué)習(xí)，而對統(tǒng)計模型沒有太多的了解和關(guān)注，而統(tǒng)計學(xué)家（尤其是計量經(jīng)濟學(xué)家和政治方法學(xué)家）則專注于模型的無偏或一致的估計者和因果影響的假設(shè)檢驗，對預(yù)測或?qū)W習(xí)沒有什么關(guān)注。信息科學(xué)家們也試圖找到快速有效的方法來索引和訪問文件和知識，強調(diào)預(yù)測，而很少關(guān)注統(tǒng)計方法或模型。

由于強調(diào)模式識別，計算機科學(xué)家通常說的是根據(jù)案例的特征將其歸類（例如，根據(jù)體重、年齡、血清胰島素預(yù)測某人是否可以歸類為糖尿病患者），而統(tǒng)計學(xué)家說的是根據(jù)自變量或預(yù)測因素預(yù)測因變量的數(shù)值，盡管他們經(jīng)常處理相同的問題。計算機科學(xué)家談?wù)摰氖羌せ詈瘮?shù)、訓(xùn)練集和學(xué)習(xí)，而統(tǒng)計學(xué)家談?wù)摰氖呛瘮?shù)形式、樣本和估計。此外，計算機科學(xué)家談?wù)摰氖怯斜O(jiān)督和無監(jiān)督的學(xué)習(xí)問題。前者指的是有相關(guān)類別信息的問題（例如，已經(jīng)分類為獨立物種的標本），后者指的是沒有這種信息的問題。監(jiān)督學(xué)習(xí)使用有因變量的方法，如判別分析或邏輯回歸，而無監(jiān)督學(xué)習(xí)使用聚類、因子分析或多維縮放。一旦數(shù)據(jù)科學(xué)領(lǐng)域的學(xué)者認識到這些術(shù)語的差異，關(guān)于模式識別（Ripley 1995）、人工智能（Russell & Norvig 2009）、機器學(xué)習(xí)（Bishop 2011）和統(tǒng)計學(xué)習(xí)（Hastie等人2016）的書籍就顯得不那么玄乎，更容易接近。

數(shù)據(jù)科學(xué)變得如此流行的一個原因是，機器學(xué)習(xí)的一個變種，即深度學(xué)習(xí)，已經(jīng)在困難的模式識別任務(wù)中取得成功，如語音和圖像識別、自然語言處理和生物信息學(xué)（LeCun等人，2015）。深度學(xué)習(xí)是典型前饋神經(jīng)網(wǎng)絡(luò)的一個變種，它涉及到多層分類器，使用堆疊的邏輯或類似的回歸（Sarle 1994, Schmidhuber 2015），其中輸入是要分類的項目的特征。例如，對于被分類為狗或貓的動物，其特征可能是大或不大，是否發(fā)出狗叫，是否發(fā)出貓叫，溫順或不溫順，白色或非白色，以及有無尾巴。這些特征如果存在就用1來編碼，如果不存在就用-1來編碼。其中一些特征對于區(qū)分狗和貓比其他特征更有用。對于我們有數(shù)據(jù)的每只動物，我們計算了這些L特征的M個加權(quán)線性組合，其中的權(quán)重反映了這些特征的診斷價值。在這些組合中的每一個被一個sigmoid激活函數(shù)（如logistic）轉(zhuǎn)換后，它構(gòu)成了一個隱藏層變量，也被稱為神經(jīng)元。第一個隱藏層包含了M個這樣的隱藏層變量，采用輸入變量的不同加權(quán)線性組合。然后，這個第一隱藏層中的這些隱藏層變量的結(jié)果被組合成另一個加權(quán)線性組合，并根據(jù)sigmoid函數(shù)進行轉(zhuǎn)換，以決定動物是狗還是貓（例如，接近1的值表示是狗，接近0的值表示是貓），或者創(chuàng)建一個有N個變量的第二隱藏層，對第一隱藏層中的M個隱藏層變量進行加權(quán)線性組合。這個過程可以用越來越多的隱藏層繼續(xù)下去，直到達到最終的sigmoid函數(shù)，預(yù)測動物是狗還是貓。該模型的評價標準是它是否在大多數(shù)時候都能得到正確的答案。

當該模型具有正確的權(quán)重，從而正確地將狗和貓分開時，它就是成功的。例如，一個大的、溫順的、會狗叫的動物幾乎肯定不是貓，所以這些特征的權(quán)重應(yīng)該是較大的、正的，以便在sigmoid函數(shù)中產(chǎn)生一個接近1的值（表明是狗），但有尾巴或白色的權(quán)重應(yīng)該接近0，因為它們不是很有診斷價值的特征。為了使模型發(fā)揮作用，必須有足夠的隱藏層和隱藏變量，以提供適合所有可能的狗和貓的特征排列的靈活性，而且必須有高效的學(xué)習(xí)算法來確定正確的權(quán)重，以便對困難的情況進行正確分類。淺層機器學(xué)習(xí)模型只有幾個隱藏層，那些沒有隱藏層的模型被稱為感知器。深層機器學(xué)習(xí)模型有許多隱藏層。模型的整體復(fù)雜性取決于隱藏層的數(shù)量和隱藏變量或神經(jīng)元的數(shù)量。

同時，不管是什么原因，深度學(xué)習(xí)方法似乎對模式識別問題有明顯的效果，但鑒于其神秘的復(fù)雜性，它們的解釋往往是困難的。它們更擅長于產(chǎn)生預(yù)測，而不是解釋性的見解。

2. 數(shù)據(jù)科學(xué)可以解決哪些類型的問題？

關(guān)于大數(shù)據(jù)和數(shù)據(jù)科學(xué)有很多夸張的說法，人們可能認為我們已經(jīng)解決或避免了實證研究的四個最基本的問題：（a）形成概念并提供對它們的測量；（b）提供可靠的描述性推論；（c）從過去的經(jīng)驗中進行因果推論；以及（d）對未來進行預(yù)測。事實上，數(shù)據(jù)科學(xué)已經(jīng)為解決其中的每一個問題做出了一些貢獻，特別是形成概念和對未來進行預(yù)測，但它們?nèi)匀皇腔竞屠щy的問題（Smith 2018）。讓我們依次考慮每個問題。人工智能研究人員已經(jīng)使用了無監(jiān)督的機器學(xué)習(xí)方法，以便計算機學(xué)習(xí)概念，這與政治學(xué)家在歷史上使用因子或聚類分析來識別概念的方式基本相同。

對概念形成最豐富的研究之一（Thagard 1992）使用人工智能模型來理解科學(xué)中的 "概念革命"。機器學(xué)習(xí)擅長尋找模式，所以它對概念的形成很有幫助，但歸納或演繹地、現(xiàn)象學(xué)或本體論地、實用或理論地定義概念之間的相互作用等基本問題仍然存在。我們確實有一些更好的工具來處理這些問題，比如基于模型的聚類技術(shù)（例如Ahlquist & Breunig 2012），可以對類型學(xué)中的不確定性進行評估，但是像原子、物種、民主或主題這樣的概念仍然是非常深刻的想法，這就是為什么科學(xué)中的概念革命（如量子理論、板塊構(gòu)造學(xué)、進化論、相對論或主題分析）是如此重要的。它們反映了我們看待世界的方式的格式塔變化。這也是為什么這些方法的使用者必須謹慎行事的原因。

數(shù)據(jù)科學(xué)方法可以幫助我們探索和描述數(shù)據(jù)，在其中找到有趣的模式，并有效地展示它們。大數(shù)據(jù)的使用有助于我們進行描述性推論，因為它經(jīng)常提供一份完整的逮捕、登記選民、食品券領(lǐng)取者等的名單，但定義適當?shù)目傮w的問題仍然存在，因為我們可能分別關(guān)心犯罪、潛在選民或有資格領(lǐng)取食品券的人。此外，互聯(lián)網(wǎng)樣本尤其有問題，因為很難界定它們代表什么總體，以及它們是如何從這個總體中取樣的。擁有大量的數(shù)據(jù)并不能確保它們以統(tǒng)計學(xué)上可靠的方式（例如，隨機抽樣）代表一個有趣的、可定義的總體。也許最有趣的，也是最令人擔憂的是，一些數(shù)據(jù)科學(xué)的倡導(dǎo)者忽視甚至拒絕因果推斷的需要，而緊緊抓住統(tǒng)計預(yù)測的狹窄概念。

這種傾向有三個來源。首先是認為有大量的數(shù)據(jù)（許多案例或許多變量）就能自動解決推斷問題，當然，這是錯誤的。推斷需要我們以正確的方式選擇案例（例如，隨機抽樣），并且可用的變量包括實際的原因，并允許我們控制正確的東西，以避免虛假的相關(guān)性（見Lazer等人，2014，Titiunik 2015）。第二個來源是機器學(xué)習(xí)，也許特別是深度學(xué)習(xí)，讓其他的可能性解釋變得不存在。這個想法的基礎(chǔ)是關(guān)于深度學(xué)習(xí)是否真的提供了洞察力或者只是擬合曲線的問題。Cukier和Mayer-Schoenberger（2013）說："建立在因果關(guān)系重要性上的世界觀正受到大量相關(guān)關(guān)系的挑戰(zhàn)"，"我們可以從大量的信息中學(xué)習(xí)到我們在只使用較小數(shù)量時無法理解的東西"。第三種更有說服力的觀念是，做出可靠的因果推斷是非常困難的，我們應(yīng)該把重點放在預(yù)測上。這個想法在40年前導(dǎo)致了宏觀經(jīng)濟學(xué)中的向量自回歸方法（Sims 1980, Christiano 2012），并且它是許多機器學(xué)習(xí)教科書的核心。Breiman（2001）為這種方法提出了一個優(yōu)雅的早期論點；Berk（2008）提供了一個周到的長篇處理；Shmueli（2010）討論了權(quán)衡問題。

當然也有一些實際和技術(shù)問題，對于這些問題，使用機器或統(tǒng)計學(xué)習(xí)實現(xiàn)良好的預(yù)測是一個令人滿意的，也許是最佳的解決方案。Kleinberg等人（2015）舉了一個例子，涉及到髖關(guān)節(jié)或膝關(guān)節(jié)手術(shù)的決策，只有當病人活得足夠長，能夠度過通常漫長的康復(fù)期，手術(shù)才有意義。Yarkoni和Westfall（2017）提供了來自心理學(xué)的例子，例如從Facebook頁面的點贊推斷 "五大 "人格特征，以及從fMRI數(shù)據(jù)推斷人們對臉部記憶的準確性。Nickerson和Rogers（2014）展示了關(guān)于競選捐款或投票率的預(yù)測分數(shù)如何被用來提高競選的效率。在研究問題中，好的預(yù)測方法可以保證匹配方法中可接受的協(xié)變量平衡，根據(jù)某些特征對文件進行高質(zhì)量的分類，對缺失值進行準確的估算，對回歸不連續(xù)設(shè)計中的曲線進行良好的擬合，為工具變量估計提供強有力的工具，等等。

同時，政治學(xué)家們需要更努力地思考如何將來自強有力的研究設(shè)計（如實驗或準實驗）的因果機制信息與復(fù)雜的預(yù)測方法和正式建模相結(jié)合，以提高我們對未來進行預(yù)測的能力。這些預(yù)測應(yīng)該考慮到行為反應(yīng)、因果影響的異質(zhì)性，以及當政策從小型實驗中擴大規(guī)模時出現(xiàn)的一般平衡效應(yīng)。Athey（2018）討論了一些方法，也許她最重要的主張是，數(shù)據(jù)科學(xué)方法使我們有可能根據(jù)數(shù)據(jù)開發(fā)出更好的系統(tǒng)化模型選擇方法，而不是通常涉及多次估計和重復(fù)解析模型的規(guī)模搜索，直到一個事實上“虛假”的模型被提出。隨著樣本量和可用變量數(shù)量的增加，數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家也在考慮權(quán)衡模型的復(fù)雜性和解析性（Powell 2017）?，F(xiàn)在，數(shù)據(jù)科學(xué)方法使得使用交叉驗證和其他方法進行數(shù)據(jù)驅(qū)動的模型選擇成為可能，對許多模型進行估計和平均，并考慮到模型的不確定性和數(shù)據(jù)的不確定性。

結(jié)論

大數(shù)據(jù)和數(shù)據(jù)科學(xué)提供了新的數(shù)據(jù)來源和研究方法。它們也在以催生新問題的方式改變著世界。它們擴大了可以完成的量化工作的種類，并通過對媒體的影響、城市的運作、恐怖主義和網(wǎng)絡(luò)戰(zhàn)爭、投票和政治制度的設(shè)計以及許多其他領(lǐng)域的工作，以新的方式將政治科學(xué)家?guī)肷鐣录?。隨著這種情況的發(fā)生，政治學(xué)家肯定會做更多、更好的研究，但當他們發(fā)現(xiàn)自己或自己的工作被用來創(chuàng)造新的政策或社會機制時，他們也必須思考自己作為系統(tǒng)設(shè)計者的角色的知識和實踐價值。正如工程師、律師以及越來越多的經(jīng)濟學(xué)家利用他們的社會知識來設(shè)計社會機構(gòu)一樣，政治學(xué)家現(xiàn)在正在開發(fā)重新設(shè)計政治系統(tǒng)的工具。這一角色在學(xué)術(shù)界將如何被重視？它提出了哪些倫理和知識問題？在我看來，參與制定新的政策和社會機制將是向拉斯韋爾（Harold Lasswell 1951；另見Turnbull 2008）所倡導(dǎo)的“政策科學(xué)”的有益回歸，但政治科學(xué)家無疑會發(fā)現(xiàn)自己正在承擔新的角色，這需要在學(xué)界更多的辯論和討論。

編譯｜范屹檳

審核｜紀雨佳

終審｜Momo

?Political理論志