- +1
大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來了什么?
大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來了什么?摘要:
大數(shù)據(jù)和數(shù)據(jù)科學(xué)正在改變世界,催生社會科學(xué)家新的關(guān)注點,如互聯(lián)網(wǎng)對公民和媒體的影響、智慧城市的影響、網(wǎng)絡(luò)戰(zhàn)爭和網(wǎng)絡(luò)恐怖主義的可能性、精準醫(yī)療的影響以及人工智能和自動化的后果。伴隨著社會的這些變化,強大的新數(shù)據(jù)科學(xué)(data science)方法支持使用行政、互聯(lián)網(wǎng)、文本和音頻-視頻數(shù)據(jù)的研究。蓬勃發(fā)展的數(shù)據(jù)和創(chuàng)新方法提供了從數(shù)據(jù)中形成概念、進行描述性推理、進行因果推理和產(chǎn)生預(yù)測的新方法,從而有助于回答以前難以解決的社會問題。它們也帶來了挑戰(zhàn),因為社會科學(xué)家必須掌握由復(fù)雜的算法產(chǎn)生的概念和預(yù)測的意義,權(quán)衡預(yù)測與因果推斷的相對價值,并應(yīng)對道德挑戰(zhàn),因為社會科學(xué)家的方法,如動員選民的算法,會被政策制定者采用。
作者簡介:
Henry Brady 加州大學(xué)伯克利分校政治學(xué)與公共政策教授
編譯來源:
Brady, H. E. (2019). The challenge of big data and data science. Annual Review of Political Science, 22, 297-323.
本文作者:Henry Brady引言
美國國家標準與技術(shù)研究院(NIST)在2015年關(guān)于大數(shù)據(jù)的框架報告中說:“大數(shù)據(jù)和數(shù)據(jù)科學(xué)正被當作流行語使用,是許多概念的組合”?!按髷?shù)據(jù)”(big data)一詞頻繁出現(xiàn)在媒體和學(xué)術(shù)期刊上,過去五年中,“數(shù)據(jù)科學(xué)”項目在學(xué)術(shù)界如雨后春筍般出現(xiàn)。2012年3月29日,白宮科技政策辦公室宣布了 "大數(shù)據(jù)研究與發(fā)展倡議"(Kalil 2012),該倡議建立在 "從計算機架構(gòu)和網(wǎng)絡(luò)技術(shù)到算法、數(shù)據(jù)管理、人工智能、機器學(xué)習(xí),以及先進網(wǎng)絡(luò)基礎(chǔ)設(shè)施的開發(fā)和部署 "的倡議之上。從2014年到2017年,"大數(shù)據(jù) "每年在JSTOR中出現(xiàn)約560次,盡管在2000年之前的一個世紀中,它每年被提及不到一次,在2001年至2010年期間,平均每年只有約8次。在過去的五年里,至少有17個數(shù)據(jù)科學(xué)項目在美國主要的研究型大學(xué)開始實施(http://msdse.org/environments/),互聯(lián)網(wǎng)上充滿了數(shù)據(jù)科學(xué)書籍和課程的廣告,經(jīng)常有 "成為一名數(shù)據(jù)科學(xué)家 "的廣告。這些短語當然已經(jīng)流行起來,但它們對不同的人意味著不同的東西,有些人甚至懷疑它們是否確定了非常新的或有用的東西(例如,Boyd & Crawford 2012,Donoho 2017,Smith 2018)。
盡管這些術(shù)語并不完美,而且經(jīng)常圍繞著它們的夸張,但它們指出了對政治科學(xué)很重要的真實變化。大數(shù)據(jù)、數(shù)據(jù)科學(xué)以及人工智能、網(wǎng)絡(luò)基礎(chǔ)設(shè)施和機器學(xué)習(xí)等相關(guān)理念有助于本文討論的以下發(fā)展和趨勢:
1.來自大數(shù)據(jù)和數(shù)據(jù)科學(xué)的社會和政治變化。政府、軍隊、企業(yè)、非營利組織和人民所產(chǎn)生和獲得的數(shù)據(jù)的數(shù)量、速度、種類和真實性,與計算能力的巨大增長和數(shù)據(jù)科學(xué)方法的改進相結(jié)合,從根本上改變社會。大數(shù)據(jù)和數(shù)據(jù)科學(xué)正在創(chuàng)造新的現(xiàn)象,并提出了關(guān)于控制和操縱人民和人口、隱私的未來、信息的真實性、工作的未來以及其他許多與政治科學(xué)家有關(guān)的話題的基本問題。
2.包括政治科學(xué)家在內(nèi)的所有科學(xué)家可以獲得越來越多的數(shù)據(jù)。所有的科學(xué)都在受到這些變化的影響?;蚪M數(shù)據(jù)的數(shù)量每九個月翻一番,目前每天產(chǎn)生約10兆字節(jié)的數(shù)據(jù);歐洲核子研究中心的大型強子對撞機每天產(chǎn)生140兆字節(jié)的數(shù)據(jù)。萬維網(wǎng)每天產(chǎn)生約1,500,000兆字節(jié),這種數(shù)據(jù)流為社會科學(xué)家提供了研究 "社會的筋骨"(Weil 2012)和 "政府的神經(jīng)"(Deutsch 1963)的機會,這在過去是無法做到的。現(xiàn)在,政治科學(xué)家可以觀察和分析(有時是實時的)人們選擇消費的信息、政治行為者產(chǎn)生的信息、人們生活的環(huán)境以及人們生活的許多其他方面。
3.政治學(xué)家組織工作的新方式。在這種數(shù)據(jù)的沖擊下,政治學(xué)家可以通過熟悉新技術(shù)來重新思考他們?nèi)绾芜M行政治學(xué)研究,這些新技術(shù)有利于數(shù)據(jù)的獲取、管理、清理、分析和存檔。
4.政治學(xué)家提出的新問題。政治學(xué)家必須自問他們在概念形成、描述、因果推理、預(yù)測和預(yù)測未來方面要完成什么。在這一過程中,將發(fā)展出關(guān)于政治行為的新方法和新見解,并為政治機構(gòu)提出新的設(shè)計。
5.處理有關(guān)政治科學(xué)研究的倫理問題。最后,政治科學(xué)家必須思考有關(guān)獲取、使用和公布信息的復(fù)雜倫理問題,以及可能濫用其模型和結(jié)果的問題。
在考慮這五個變化及其對政治科學(xué)的影響之前,我先介紹一下數(shù)據(jù)和計算能力的指數(shù)級增長,這導(dǎo)致了所謂的大數(shù)據(jù)和數(shù)據(jù)科學(xué)的突出地位。
大數(shù)據(jù)的數(shù)量、密度和種類不斷增加
社會科學(xué)家必須面對當前信息交流中的巨大變化,這些變化與19世紀交通的驚人變化相類似。1816年,使用馬匹驅(qū)動的驛車、騾子驅(qū)動的運河船或帆船,費城和魁北克之間的旅行需要四天以上。到了1860年,隨著蒸汽驅(qū)動的火車和汽船的出現(xiàn),旅行的時間和費用下降了三分之二以上,同樣的旅行只需要一天多一點。這些變化創(chuàng)造了新的貿(mào)易網(wǎng)絡(luò)、新的移民機會、帶有通勤郊區(qū)的新型城市,以及對世界的新理解,對政治、經(jīng)濟和社會產(chǎn)生了巨大影響。
信息技術(shù)每隔20年就會發(fā)生一次變化,這在19世紀末、20世紀和21世紀初的歷史上是很常見的:電話(1870-1890年代)、留聲機(1870-1890年代)、電影(1890-1920年代)、廣播(1900-1920年代)、電視(1940-1950年代)、電腦主機(1940-1950年代)、個人電腦(1970-1980年代)、互聯(lián)網(wǎng)和萬維網(wǎng)(1980-2000年代)、手機(1980-2000年代)和智能電話(2000年代至今)。最根本的創(chuàng)新來自于從模擬設(shè)備到數(shù)字設(shè)備的轉(zhuǎn)變,從20世紀50年代開始,在20世紀90年代及其后迅速發(fā)展。這些變化帶來了:(a)廣泛的數(shù)字數(shù)據(jù)化,其中無數(shù)的事件現(xiàn)在被數(shù)字記錄下來;(b)廣泛的連接性,其中事件和人被識別,以便他們可以相互連接;(c)普遍的網(wǎng)絡(luò)化,這樣人們被嵌入到一個互動用戶的社區(qū)中,成為更大網(wǎng)絡(luò)的節(jié)點;以及(d)無處不在的計算機編寫(computer authoring),其中計算機創(chuàng)造新的信息,成為社會系統(tǒng)和文化的一部分。政治學(xué)家引領(lǐng)了研究這些變化的方向。拉斯韋爾(Harold Lasswell)和多伊奇(Karl Deutsch)是研究媒體傳播及其對社會影響的早期學(xué)者。1983年,麻省理工學(xué)院的政治學(xué)家Ithiel de sola Pool研究了1960年至1977年美國大眾媒體(如廣播、電視、唱片、電影、報紙、書籍)和點對點媒體(電話、一等郵件、電報、傳真和數(shù)據(jù)通信)中的詞匯生產(chǎn),發(fā)現(xiàn)這些媒體的字數(shù)每8年翻一番,每年增長約9%。他還發(fā)現(xiàn),"印刷媒體每個字的成本越來越高,而電子媒體卻越來越便宜。" 此外,"盡管現(xiàn)代社會最大的文字流動是通過大眾媒體,但現(xiàn)在增長速度最快的是向個人提供信息的媒體,也就是點對點媒體"。最后,"從這些媒體中實際關(guān)注的文字每年僅增長2.9%",因此,"所生產(chǎn)的每項信息都面臨著一個競爭更激烈的市場和平均較小的受眾"(Pool 1983, p. 609)。Pool預(yù)言了我們對現(xiàn)代傳播境況的大部分了解。它們發(fā)展迅速,越來越電子化和點對點,人們經(jīng)歷著信息過載和信息流的碎片化。也許最有先見之明的是,Pool還說:"計算機網(wǎng)絡(luò)首次將點對點的媒介--數(shù)據(jù)通信的成本降低到大眾媒介的成本范圍"。
這些研究確定了四個值得注意的趨勢,上面簡要地提到了這些趨勢,它們產(chǎn)生了大數(shù)據(jù)革命:廣泛的數(shù)字數(shù)據(jù)化、廣泛的連接、網(wǎng)絡(luò)化和計算機編寫。首先,關(guān)于社會事件的數(shù)據(jù)如海嘯般涌現(xiàn),數(shù)字通信正在超越模擬通信。這種廣泛的數(shù)字數(shù)據(jù)化(Cukier & Mayer-Schoenberger 2013, p.29)以一種可以輕易被計算機存儲和處理的格式創(chuàng)造數(shù)據(jù)。其次,由于點對點的傳播原則上比廣播更容易被追蹤,所以連接性很普遍。例如,廣播公司傳統(tǒng)上需要精心設(shè)計的調(diào)查操作(如尼爾森的媒體使用日記)來跟蹤他們的觀眾,而Netflix有關(guān)于其電影下載的即時數(shù)據(jù)。更為普遍的是,我們現(xiàn)在可以記錄和連接關(guān)于個人發(fā)帖、購買,甚至是隨意瀏覽的數(shù)據(jù)。數(shù)據(jù)化和連接性意味著曾經(jīng)短暫的事件現(xiàn)在可以被識別和研究。信息環(huán)境變化的第三個特點是網(wǎng)絡(luò)化,這對社會科學(xué)家特別重要。曾經(jīng)的傳播被歸類為人與人之間的傳播(如談話、信件或電話)或從一個來源到許多人的大眾傳播(如書籍、報紙、電影、廣播或電視),而現(xiàn)代傳播涉及中介的社會網(wǎng)絡(luò),結(jié)合了兩種模式的特征(Neumann 2016, Schroeder 2018)。推特(Twitter)涉及到使用定義自我中介的關(guān)注領(lǐng)域的標簽,向許多追隨者發(fā)送的個人通信。臉書(Facebook)涉及擁有定制檔案的個人,他們擁有 "朋友 "網(wǎng)絡(luò),并與分享信息的共同利益的用戶群有關(guān)聯(lián)。在所有這些媒體中,關(guān)于人們的特征和他們的搜索行為的知識被用來建議,有時甚至強加特定的行動或關(guān)系。這些新的溝通模式的影響還不清楚,但它們可能在政治、市場和文化這三個重要領(lǐng)域的運作方式有所不同(Schroeder 2018)。它們也可能產(chǎn)生重要影響,比如通過建立對不同意見封閉的網(wǎng)絡(luò),增加政治極化的機會(Neumann 2016)。最后,我們現(xiàn)在生活在一個計算機可以編寫、出版和提供新形式信息的時代。社會科學(xué)的另一項工作是改進和理解這些過程。
政治學(xué)家工作的新方法
新課程:政治學(xué)教授必須開發(fā)新課程,并熟悉數(shù)據(jù)科學(xué)家開發(fā)的新技術(shù)。新課程應(yīng)該朝兩個方向發(fā)展。一門課程應(yīng)處理大數(shù)據(jù)的社會挑戰(zhàn)以及它們對政治的意義。Mergel(2016)為公共事務(wù)學(xué)院開發(fā)了一門課程,其中包含一些相關(guān)的內(nèi)容,包括政治、政府、公共衛(wèi)生和智能城市中的大數(shù)據(jù)部分,但它沒有關(guān)于媒體的部分,也沒有直接關(guān)注大數(shù)據(jù)帶來的數(shù)據(jù)所有權(quán)和使用、隱私和工作崗位流失等政治問題。第二門課程必須教給學(xué)生數(shù)據(jù)科學(xué)方法。對主要大學(xué)政治學(xué)系教授的方法課程的檢查表明,這一點正在順利進行。這些課程包括用R或Python編程,強調(diào)理解統(tǒng)計學(xué)的重采樣方法,對上述數(shù)據(jù)源的概述,以及對進行預(yù)測的方法和推斷因果關(guān)系的方法的仔細討論。此外,至少有一本輯錄(Alvarez 2016)總結(jié)了相關(guān)主題的良好選擇。這些課程都沒有涉及更深層次的理論問題,比如我們的認識論和本體論預(yù)設(shè)如何受到新方法的影響,社會中新的連接形式,以及人工智能的崛起。人們應(yīng)該對這種宏大的可能性持適當?shù)膽岩蓱B(tài)度,但Rogers(2013)、Mayer-Sch?nberger & Cukier(2014)、Mosco(2014)、Boullier(2015)和Salganik(2017)對當我們"讓世界自己意識和自我描述"(make the world self-aware and self-describing, Evans 2018, p. 141)時將會發(fā)生什么提供了一些思考。
新的研究管理方式:少數(shù)從事谷歌、Facebook或非常大的數(shù)據(jù)集的政治科學(xué)家可能要學(xué)習(xí)大數(shù)據(jù)架構(gòu)和處理大數(shù)據(jù)集的新的分散方法,如Hadoop、Hive、NoSQL和Spark,但對大多數(shù)人來說,這將是一種浪費。相反,政治學(xué)家可能會更好地關(guān)注數(shù)據(jù)清理、數(shù)據(jù)管理、可重復(fù)科學(xué)、數(shù)據(jù)的生命周期管理和數(shù)據(jù)可視化的新軟件。在此,我簡要地討論一下數(shù)據(jù)清洗和可重復(fù)性科學(xué)。一條推特(@BigDataBorat)描述了人們普遍認為的數(shù)據(jù)清理占用了研究中的大部分時間,他說:"在數(shù)據(jù)科學(xué)中,80%的時間用于準備數(shù)據(jù),20%的時間用于抱怨需要準備數(shù)據(jù)。" 當然,數(shù)據(jù)準備是繁瑣而耗時的(Kandel等人,2012)。DataWrangler(Kandel等人,2011)在一個像電子表格一樣的交互式界面中顯示數(shù)據(jù),并允許研究者根據(jù)程序?qū)λ璧囊话戕D(zhuǎn)換的推斷,對數(shù)據(jù)的某一行進行修改,并在所有其他行的數(shù)據(jù)中重現(xiàn)。隨著用戶與系統(tǒng)的互動,系統(tǒng)會改進其推斷,甚至提出建議,從而幫助研究者進行改進。該系統(tǒng)會跟蹤對數(shù)據(jù)所做的工作,以便研究人員能夠確保它是成功的。它的免費版本是Trifacta Wrangler。另一種清理數(shù)據(jù)的方法是Tidyverse,它是一個免費的R程序集,可以用來創(chuàng)建一個整潔的數(shù)據(jù)集(Wickham 2014)??蓮?fù)制的科學(xué)旨在使其他的研究者有可能 "重新創(chuàng)建項目的最終報告結(jié)果,包括關(guān)鍵的定量發(fā)現(xiàn)、表格和數(shù)字,只需給出一組文件和書面說明"(Kitzes等人,2017,第13頁)。因為這些工具使我們更容易獲得和重現(xiàn)研究成果,因為期刊越來越多地要求可重復(fù)性,因為政府一直在努力要求受資助者這樣做,所以學(xué)習(xí)這些方法是非常值得的。
政治學(xué)家提出的新問題
1. 數(shù)據(jù)科學(xué)從何而來?
數(shù)據(jù)科學(xué)的方法主要來自于計算機科學(xué)、統(tǒng)計學(xué)、圖書館或信息科學(xué),有些則源于生物學(xué)家為模擬人腦中神經(jīng)元之間的聯(lián)系所做的努力,以及認知科學(xué)家(如多才多藝的政治學(xué)家赫伯特-西蒙)為發(fā)展人工智能所作的努力。這些不同流派的研究混合產(chǎn)生了混亂,因為類似的方法(如神經(jīng)網(wǎng)和邏輯回歸)在這些學(xué)科領(lǐng)域被稱為不同的名字,而使用人工智能或神經(jīng)網(wǎng)等名字會導(dǎo)致人們誤以為這些方法實際上是模仿人腦的工作方式。事實上,大多數(shù)方法可以直接翻譯成統(tǒng)計學(xué)語言(Sarle 1994, Warner & Misra 1996),與人類智能的聯(lián)系更多的是比喻。這種混亂也有一部分來自于這樣一個事實,即不同學(xué)科背景專家的關(guān)注點不同:直到最近,計算機科學(xué)家還在試圖解決模式識別問題,并以最少的錯誤推進預(yù)測性機器學(xué)習(xí),而對統(tǒng)計模型沒有太多的了解和關(guān)注,而統(tǒng)計學(xué)家(尤其是計量經(jīng)濟學(xué)家和政治方法學(xué)家)則專注于模型的無偏或一致的估計者和因果影響的假設(shè)檢驗,對預(yù)測或?qū)W習(xí)沒有什么關(guān)注。信息科學(xué)家們也試圖找到快速有效的方法來索引和訪問文件和知識,強調(diào)預(yù)測,而很少關(guān)注統(tǒng)計方法或模型。
由于強調(diào)模式識別,計算機科學(xué)家通常說的是根據(jù)案例的特征將其歸類(例如,根據(jù)體重、年齡、血清胰島素預(yù)測某人是否可以歸類為糖尿病患者),而統(tǒng)計學(xué)家說的是根據(jù)自變量或預(yù)測因素預(yù)測因變量的數(shù)值,盡管他們經(jīng)常處理相同的問題。計算機科學(xué)家談?wù)摰氖羌せ詈瘮?shù)、訓(xùn)練集和學(xué)習(xí),而統(tǒng)計學(xué)家談?wù)摰氖呛瘮?shù)形式、樣本和估計。此外,計算機科學(xué)家談?wù)摰氖怯斜O(jiān)督和無監(jiān)督的學(xué)習(xí)問題。前者指的是有相關(guān)類別信息的問題(例如,已經(jīng)分類為獨立物種的標本),后者指的是沒有這種信息的問題。監(jiān)督學(xué)習(xí)使用有因變量的方法,如判別分析或邏輯回歸,而無監(jiān)督學(xué)習(xí)使用聚類、因子分析或多維縮放。一旦數(shù)據(jù)科學(xué)領(lǐng)域的學(xué)者認識到這些術(shù)語的差異,關(guān)于模式識別(Ripley 1995)、人工智能(Russell & Norvig 2009)、機器學(xué)習(xí)(Bishop 2011)和統(tǒng)計學(xué)習(xí)(Hastie等人2016)的書籍就顯得不那么玄乎,更容易接近。
數(shù)據(jù)科學(xué)變得如此流行的一個原因是,機器學(xué)習(xí)的一個變種,即深度學(xué)習(xí),已經(jīng)在困難的模式識別任務(wù)中取得成功,如語音和圖像識別、自然語言處理和生物信息學(xué)(LeCun等人,2015)。深度學(xué)習(xí)是典型前饋神經(jīng)網(wǎng)絡(luò)的一個變種,它涉及到多層分類器,使用堆疊的邏輯或類似的回歸(Sarle 1994, Schmidhuber 2015),其中輸入是要分類的項目的特征。例如,對于被分類為狗或貓的動物,其特征可能是大或不大,是否發(fā)出狗叫,是否發(fā)出貓叫,溫順或不溫順,白色或非白色,以及有無尾巴。這些特征如果存在就用1來編碼,如果不存在就用-1來編碼。其中一些特征對于區(qū)分狗和貓比其他特征更有用。對于我們有數(shù)據(jù)的每只動物,我們計算了這些L特征的M個加權(quán)線性組合,其中的權(quán)重反映了這些特征的診斷價值。在這些組合中的每一個被一個sigmoid激活函數(shù)(如logistic)轉(zhuǎn)換后,它構(gòu)成了一個隱藏層變量,也被稱為神經(jīng)元。第一個隱藏層包含了M個這樣的隱藏層變量,采用輸入變量的不同加權(quán)線性組合。然后,這個第一隱藏層中的這些隱藏層變量的結(jié)果被組合成另一個加權(quán)線性組合,并根據(jù)sigmoid函數(shù)進行轉(zhuǎn)換,以決定動物是狗還是貓(例如,接近1的值表示是狗,接近0的值表示是貓),或者創(chuàng)建一個有N個變量的第二隱藏層,對第一隱藏層中的M個隱藏層變量進行加權(quán)線性組合。這個過程可以用越來越多的隱藏層繼續(xù)下去,直到達到最終的sigmoid函數(shù),預(yù)測動物是狗還是貓。該模型的評價標準是它是否在大多數(shù)時候都能得到正確的答案。
當該模型具有正確的權(quán)重,從而正確地將狗和貓分開時,它就是成功的。例如,一個大的、溫順的、會狗叫的動物幾乎肯定不是貓,所以這些特征的權(quán)重應(yīng)該是較大的、正的,以便在sigmoid函數(shù)中產(chǎn)生一個接近1的值(表明是狗),但有尾巴或白色的權(quán)重應(yīng)該接近0,因為它們不是很有診斷價值的特征。為了使模型發(fā)揮作用,必須有足夠的隱藏層和隱藏變量,以提供適合所有可能的狗和貓的特征排列的靈活性,而且必須有高效的學(xué)習(xí)算法來確定正確的權(quán)重,以便對困難的情況進行正確分類。淺層機器學(xué)習(xí)模型只有幾個隱藏層,那些沒有隱藏層的模型被稱為感知器。深層機器學(xué)習(xí)模型有許多隱藏層。模型的整體復(fù)雜性取決于隱藏層的數(shù)量和隱藏變量或神經(jīng)元的數(shù)量。
同時,不管是什么原因,深度學(xué)習(xí)方法似乎對模式識別問題有明顯的效果,但鑒于其神秘的復(fù)雜性,它們的解釋往往是困難的。它們更擅長于產(chǎn)生預(yù)測,而不是解釋性的見解。
2. 數(shù)據(jù)科學(xué)可以解決哪些類型的問題?
關(guān)于大數(shù)據(jù)和數(shù)據(jù)科學(xué)有很多夸張的說法,人們可能認為我們已經(jīng)解決或避免了實證研究的四個最基本的問題:(a)形成概念并提供對它們的測量;(b)提供可靠的描述性推論;(c)從過去的經(jīng)驗中進行因果推論;以及(d)對未來進行預(yù)測。事實上,數(shù)據(jù)科學(xué)已經(jīng)為解決其中的每一個問題做出了一些貢獻,特別是形成概念和對未來進行預(yù)測,但它們?nèi)匀皇腔竞屠щy的問題(Smith 2018)。讓我們依次考慮每個問題。人工智能研究人員已經(jīng)使用了無監(jiān)督的機器學(xué)習(xí)方法,以便計算機學(xué)習(xí)概念,這與政治學(xué)家在歷史上使用因子或聚類分析來識別概念的方式基本相同。
對概念形成最豐富的研究之一(Thagard 1992)使用人工智能模型來理解科學(xué)中的 "概念革命"。機器學(xué)習(xí)擅長尋找模式,所以它對概念的形成很有幫助,但歸納或演繹地、現(xiàn)象學(xué)或本體論地、實用或理論地定義概念之間的相互作用等基本問題仍然存在。我們確實有一些更好的工具來處理這些問題,比如基于模型的聚類技術(shù)(例如Ahlquist & Breunig 2012),可以對類型學(xué)中的不確定性進行評估,但是像原子、物種、民主或主題這樣的概念仍然是非常深刻的想法,這就是為什么科學(xué)中的概念革命(如量子理論、板塊構(gòu)造學(xué)、進化論、相對論或主題分析)是如此重要的。它們反映了我們看待世界的方式的格式塔變化。這也是為什么這些方法的使用者必須謹慎行事的原因。
數(shù)據(jù)科學(xué)方法可以幫助我們探索和描述數(shù)據(jù),在其中找到有趣的模式,并有效地展示它們。大數(shù)據(jù)的使用有助于我們進行描述性推論,因為它經(jīng)常提供一份完整的逮捕、登記選民、食品券領(lǐng)取者等的名單,但定義適當?shù)目傮w的問題仍然存在,因為我們可能分別關(guān)心犯罪、潛在選民或有資格領(lǐng)取食品券的人。此外,互聯(lián)網(wǎng)樣本尤其有問題,因為很難界定它們代表什么總體,以及它們是如何從這個總體中取樣的。擁有大量的數(shù)據(jù)并不能確保它們以統(tǒng)計學(xué)上可靠的方式(例如,隨機抽樣)代表一個有趣的、可定義的總體。也許最有趣的,也是最令人擔憂的是,一些數(shù)據(jù)科學(xué)的倡導(dǎo)者忽視甚至拒絕因果推斷的需要,而緊緊抓住統(tǒng)計預(yù)測的狹窄概念。
這種傾向有三個來源。首先是認為有大量的數(shù)據(jù)(許多案例或許多變量)就能自動解決推斷問題,當然,這是錯誤的。推斷需要我們以正確的方式選擇案例(例如,隨機抽樣),并且可用的變量包括實際的原因,并允許我們控制正確的東西,以避免虛假的相關(guān)性(見Lazer等人,2014,Titiunik 2015)。第二個來源是機器學(xué)習(xí),也許特別是深度學(xué)習(xí),讓其他的可能性解釋變得不存在。這個想法的基礎(chǔ)是關(guān)于深度學(xué)習(xí)是否真的提供了洞察力或者只是擬合曲線的問題。Cukier和Mayer-Schoenberger(2013)說:"建立在因果關(guān)系重要性上的世界觀正受到大量相關(guān)關(guān)系的挑戰(zhàn)","我們可以從大量的信息中學(xué)習(xí)到我們在只使用較小數(shù)量時無法理解的東西"。第三種更有說服力的觀念是,做出可靠的因果推斷是非常困難的,我們應(yīng)該把重點放在預(yù)測上。這個想法在40年前導(dǎo)致了宏觀經(jīng)濟學(xué)中的向量自回歸方法(Sims 1980, Christiano 2012),并且它是許多機器學(xué)習(xí)教科書的核心。Breiman(2001)為這種方法提出了一個優(yōu)雅的早期論點;Berk(2008)提供了一個周到的長篇處理;Shmueli(2010)討論了權(quán)衡問題。
當然也有一些實際和技術(shù)問題,對于這些問題,使用機器或統(tǒng)計學(xué)習(xí)實現(xiàn)良好的預(yù)測是一個令人滿意的,也許是最佳的解決方案。Kleinberg等人(2015)舉了一個例子,涉及到髖關(guān)節(jié)或膝關(guān)節(jié)手術(shù)的決策,只有當病人活得足夠長,能夠度過通常漫長的康復(fù)期,手術(shù)才有意義。Yarkoni和Westfall(2017)提供了來自心理學(xué)的例子,例如從Facebook頁面的點贊推斷 "五大 "人格特征,以及從fMRI數(shù)據(jù)推斷人們對臉部記憶的準確性。Nickerson和Rogers(2014)展示了關(guān)于競選捐款或投票率的預(yù)測分數(shù)如何被用來提高競選的效率。在研究問題中,好的預(yù)測方法可以保證匹配方法中可接受的協(xié)變量平衡,根據(jù)某些特征對文件進行高質(zhì)量的分類,對缺失值進行準確的估算,對回歸不連續(xù)設(shè)計中的曲線進行良好的擬合,為工具變量估計提供強有力的工具,等等。
同時,政治學(xué)家們需要更努力地思考如何將來自強有力的研究設(shè)計(如實驗或準實驗)的因果機制信息與復(fù)雜的預(yù)測方法和正式建模相結(jié)合,以提高我們對未來進行預(yù)測的能力。這些預(yù)測應(yīng)該考慮到行為反應(yīng)、因果影響的異質(zhì)性,以及當政策從小型實驗中擴大規(guī)模時出現(xiàn)的一般平衡效應(yīng)。Athey(2018)討論了一些方法,也許她最重要的主張是,數(shù)據(jù)科學(xué)方法使我們有可能根據(jù)數(shù)據(jù)開發(fā)出更好的系統(tǒng)化模型選擇方法,而不是通常涉及多次估計和重復(fù)解析模型的規(guī)模搜索,直到一個事實上“虛假”的模型被提出。隨著樣本量和可用變量數(shù)量的增加,數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家也在考慮權(quán)衡模型的復(fù)雜性和解析性(Powell 2017)?,F(xiàn)在,數(shù)據(jù)科學(xué)方法使得使用交叉驗證和其他方法進行數(shù)據(jù)驅(qū)動的模型選擇成為可能,對許多模型進行估計和平均,并考慮到模型的不確定性和數(shù)據(jù)的不確定性。
結(jié)論
大數(shù)據(jù)和數(shù)據(jù)科學(xué)提供了新的數(shù)據(jù)來源和研究方法。它們也在以催生新問題的方式改變著世界。它們擴大了可以完成的量化工作的種類,并通過對媒體的影響、城市的運作、恐怖主義和網(wǎng)絡(luò)戰(zhàn)爭、投票和政治制度的設(shè)計以及許多其他領(lǐng)域的工作,以新的方式將政治科學(xué)家?guī)肷鐣录?。隨著這種情況的發(fā)生,政治學(xué)家肯定會做更多、更好的研究,但當他們發(fā)現(xiàn)自己或自己的工作被用來創(chuàng)造新的政策或社會機制時,他們也必須思考自己作為系統(tǒng)設(shè)計者的角色的知識和實踐價值。正如工程師、律師以及越來越多的經(jīng)濟學(xué)家利用他們的社會知識來設(shè)計社會機構(gòu)一樣,政治學(xué)家現(xiàn)在正在開發(fā)重新設(shè)計政治系統(tǒng)的工具。這一角色在學(xué)術(shù)界將如何被重視?它提出了哪些倫理和知識問題?在我看來,參與制定新的政策和社會機制將是向拉斯韋爾(Harold Lasswell 1951;另見Turnbull 2008)所倡導(dǎo)的“政策科學(xué)”的有益回歸,但政治科學(xué)家無疑會發(fā)現(xiàn)自己正在承擔新的角色,這需要在學(xué)界更多的辯論和討論。
編譯|范屹檳
審核|紀雨佳
終審|Momo
?Political理論志
前沿追蹤/理論方法/專家評論ID: ThePoliticalReview
“在看”給我一朵小黃花
原標題:《大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來了什么? | Annual Review of Political Science》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




