中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

用數(shù)據(jù)說話就是用事實說話 | 專訪沈浩

2023-05-24 17:53
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

說起數(shù)據(jù)新聞,你可能會想到數(shù)據(jù)圖表、炫酷的可視化效果;可能會想到一些工具,比如Excel、Python、Tableau等等;也可能一頭霧水。數(shù)據(jù)新聞在中國還年輕,但行業(yè)從業(yè)者、學(xué)術(shù)研究者、個人創(chuàng)作者們,已經(jīng)圍繞著它做了不少探索。

這一次,中國傳媒大學(xué)新聞學(xué)院“白楊數(shù)新觀察”團隊和澎湃新聞“湃客·有數(shù)”共同推出系列訪談“數(shù)據(jù)新聞訪談錄”。

我們抱著觀察記錄、答疑解惑的想法,采訪了國內(nèi)外十多位在數(shù)據(jù)新聞領(lǐng)域有創(chuàng)見、有思想的學(xué)者、媒體人及學(xué)子,闡釋數(shù)據(jù)新聞的新理念新發(fā)展,介紹數(shù)據(jù)新聞教育的經(jīng)驗、方法和路徑,分享數(shù)據(jù)新聞作品的創(chuàng)作過程,在數(shù)據(jù)新聞的業(yè)務(wù)實踐前沿、行業(yè)發(fā)展前景、教學(xué)體系現(xiàn)狀等話題中進行思維碰撞。

 

輸入同一個問題,誕生于不同背景的 ChatGPT、文心一言等人工智能給出的回答不同,這是為什么?輸入給人工智能學(xué)習(xí)的數(shù)據(jù),其背后是否隱藏了不同的價值取向,輸出反饋給人類時是否會隱含偏差和誤導(dǎo)?這對我們的認(rèn)知又將產(chǎn)生怎樣的影響?對于以上問題,沈浩表示,人們應(yīng)當(dāng)對數(shù)據(jù)抱有信心——數(shù)據(jù)依舊是最有事實的東西,在大量數(shù)據(jù)中挖掘出的隱藏在數(shù)據(jù)中的模式、趨勢和相關(guān)性,幾乎不可能造假。而數(shù)據(jù)新聞,就是用數(shù)據(jù)去呈現(xiàn)真實。

沈浩,男,傳播學(xué)博士。中國傳媒大學(xué)新聞學(xué)院教授、博士生導(dǎo)師,中國傳媒大學(xué)媒體融合與傳播國家重點實驗室媒體大數(shù)據(jù)中心首席科學(xué)家,中國市場信息調(diào)查業(yè)協(xié)會副會長。

2003 年,沈浩開始研究數(shù)據(jù)挖掘相關(guān)領(lǐng)域,后投身于空間信息分析和大數(shù)據(jù)領(lǐng)域。從大數(shù)據(jù)和人工智能,到區(qū)塊鏈,再到元宇宙和虛擬數(shù)字人,沈浩一直在追尋科技的前沿。2013 年,在其引導(dǎo)下,數(shù)據(jù)新聞專業(yè)成立。

從專業(yè)上講,沈浩從“最理科”干到了“最文科”。畢業(yè)于北京師范大學(xué)數(shù)學(xué)系的他更偏好用數(shù)學(xué)的方式解決社科,特別是新聞方面的問題。

 

Q1:在跨專業(yè)過程中,不同學(xué)科的邏輯思維體系是否有很大的差別,您又是如何將它們?nèi)诤显龠\用的?

沈浩:我可以說是從“最理科”干到了“最文科”。微博剛出來的時候,我經(jīng)常在微博發(fā)一些數(shù)據(jù)相關(guān)內(nèi)容,網(wǎng)上會有一些人會和我杠,質(zhì)疑我一個新聞學(xué)老師怎么會懂大數(shù)據(jù)、人工智能呢?文科、理科的思維方式是普遍存在的,盡管我不喜歡這樣的二分。

近幾年我愈發(fā)認(rèn)識到數(shù)學(xué)的重要性,會向文科生灌輸數(shù)學(xué)思維方式和腦句,這在解決實際問題中很有作用。雖然我現(xiàn)在可能有些走極端,就是說我更偏好用數(shù)學(xué)的方式解決社科問題,特別是新聞方面的問題,我越來越重視大數(shù)據(jù)智能技術(shù)對傳統(tǒng)新聞變革的影響,因為我們本身就是做傳播研究方法的,做方法需要定性定量。

不過,數(shù)據(jù)新聞做的是產(chǎn)品,是有組織的團隊創(chuàng)新。新聞報道的思路和深度的數(shù)據(jù)挖掘過程需要共同討論和仔細考量,靠一個人不能完成這么工作量大的任務(wù)。

Q2:您剛剛提到數(shù)據(jù)新聞的生產(chǎn)是需要團隊的,為什么當(dāng)下中國沒有形成高度專業(yè)化的數(shù)據(jù)新聞團隊形式?

沈浩:我們是有意識在帶領(lǐng)學(xué)生形成團隊去做數(shù)據(jù)新聞生產(chǎn)的,但是互聯(lián)網(wǎng)或者說新媒體中傳播效率不如預(yù)期。

當(dāng)數(shù)據(jù)新聞起來的時候,除了探討數(shù)據(jù)技術(shù)要求,我們還需探討這種數(shù)據(jù)報道形態(tài)。這種形態(tài)是一種產(chǎn)品,既然是產(chǎn)品,那就跟傳統(tǒng)的新聞宣傳報道是不一樣的。產(chǎn)品是有成本的,我們需要去考慮這個產(chǎn)品能不能賣得出去,它的受眾是什么,以此來衡量能不能做。如此龐大繁雜的過程,決定我們的數(shù)據(jù)新聞不是一個人能做出來的——我們需要 News room。國外就有很多這種 News room,News room 里有一些編碼程序員,還有數(shù)據(jù)科學(xué)家。境外的數(shù)據(jù)新聞主要是揭露造假腐敗國際政府陰暗面的維度,我們對這維度不擅長,于是我們更加偏向于人文關(guān)懷,還有社會重大事件,比如青島爆炸、深圳垮塌事件、周老虎事件,就是對已經(jīng)確認(rèn)的腐敗通過天眼查去做。 

然而,數(shù)據(jù)新聞選題是最重要的,我們做的是一種新的深度報道,新聞的生產(chǎn)已經(jīng)發(fā)生了根本的改變,現(xiàn)在的數(shù)據(jù)新聞已經(jīng)不是以前狹義的數(shù)據(jù)新聞了。數(shù)據(jù)新聞傳入的時候,當(dāng)時還沒有人工智能,只有大數(shù)據(jù),但同學(xué)處理不了大數(shù)據(jù),只能處理小數(shù)據(jù),只是在可視化方面玩得好一點。

Q3:您剛剛提到現(xiàn)在挖的都是小數(shù)據(jù),沒有真正應(yīng)用到大數(shù)據(jù)。那作為一個學(xué)生,或是從業(yè)者,應(yīng)該怎么利用大數(shù)據(jù)讓新聞更好地實現(xiàn)敘事作用呢?

沈浩:為什么說“大數(shù)據(jù)才有數(shù)據(jù)新聞,小數(shù)據(jù)沒有數(shù)據(jù)新聞”?這樣說可能有點絕對,但其中還是有些道理的。新聞要有 5W1H 要素,但小數(shù)據(jù)沒有這些要素。大數(shù)據(jù)是邊生產(chǎn)邊應(yīng)用、邊應(yīng)用邊生產(chǎn),有時效性。而小數(shù)據(jù)是實證的,例如 45 天出一份報告,沒有時效性。真正的大數(shù)據(jù)新聞應(yīng)當(dāng)是具有時效性的深度報道。大數(shù)據(jù)挖出來的東西不是靠直覺發(fā)現(xiàn)的,甚至是違背直覺的東西,是事先不知道的,缺乏相關(guān)理論的。大數(shù)據(jù)運用的技術(shù)更像是類似知識圖譜或關(guān)系圖譜,關(guān)系圖和空間地理天生有可視化的效果,于是我們就有挖掘的能力。

目前來講,希望學(xué)習(xí)新聞的同學(xué)們能在數(shù)據(jù)選題和敘事上有特色,努力開辟報道角度和敘事方式的獨特性;并且了解數(shù)據(jù)新聞生產(chǎn)的過程,同時與寫代碼的、具有可視化表現(xiàn)能力的人通力合作。

Q4:數(shù)據(jù)的標(biāo)準(zhǔn)化過程中會不會存在傾向性,如何保證標(biāo)準(zhǔn)化后的數(shù)據(jù)的代表性呢?

沈浩:這是一個很技術(shù)的問題。為什么要標(biāo)準(zhǔn)化呢?其實主要是針對特定的分析,數(shù)據(jù)的量綱不一樣,所以我們需要標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化是數(shù)據(jù)處理,或者叫數(shù)據(jù)預(yù)處理的工作。這里邊包括三個方面。

第一個方面,就是我們在分析中把變量進行標(biāo)準(zhǔn)化。把量綱一致化之后,就可以進行相應(yīng)的處理。在標(biāo)準(zhǔn)化的過程中可以產(chǎn)生“轉(zhuǎn)換”,比如說數(shù)據(jù)過去不服從正態(tài)分布,我們通過一種標(biāo)準(zhǔn)化的方式,那么就可以使它顯示出正態(tài)分布的形態(tài)。

第二個方面,就是在像排名這樣的問題上。排名是技術(shù),發(fā)布是藝術(shù)。排名的過程中,數(shù)據(jù)可能來自于不同的指標(biāo)和不同的權(quán)重,那么為了能夠加權(quán),指標(biāo)應(yīng)該都是標(biāo)準(zhǔn)化的,但是在這個過程中如何標(biāo)準(zhǔn)化?是否會影響權(quán)重?這是很明顯的。

第三個方面,就是標(biāo)準(zhǔn)化的預(yù)處理模式。比如去除異常值,這個算不算標(biāo)準(zhǔn)化呢?這就看廣義的標(biāo)準(zhǔn)化概念。異常值的清洗,包括兩個變量的相關(guān)性。如果兩個變量具有相關(guān)性的話,那我們其實可以只用一個變量就可以了。所以標(biāo)準(zhǔn)化過程,其實也是一個數(shù)據(jù)消解的過程。

Q5:由數(shù)據(jù)分析得出的結(jié)論可信度高嗎?評估標(biāo)準(zhǔn)是什么呢?它能夠如實反映真實情況嗎?

沈浩:我剛才說了一句話,其實內(nèi)涵比較深,就是“排名是技術(shù),發(fā)布是藝術(shù)”。也就是說,什么樣的排名、用哪些變量,是人在決定。但如何排、如何標(biāo)準(zhǔn)化,其實也是一個重要的人為因素。在這個過程中,一個合格的數(shù)據(jù)分析人員應(yīng)該秉承客觀的理念,循著符合數(shù)理邏輯的過程。這不是篡改數(shù)據(jù),而是改變算法。像傳統(tǒng)的回歸、因子分析、主成分分析,甚至包括現(xiàn)在我們的深度學(xué)習(xí)技術(shù)、比如最近的火的 ChatGPT,所有輸入給計算機學(xué)習(xí)的數(shù)據(jù)都是需要經(jīng)過標(biāo)準(zhǔn)化的。

那么標(biāo)準(zhǔn)化的過程會不會帶來所說的“偏向”呢?這就是看到底是算法的偏,還是人為的、有意或者無意的偏,這二者是截然不同的。如果探討人的原因,人有意篡改數(shù)據(jù),希望模型怎么樣,那又是另一個問題,這事情就變得復(fù)雜了。所以我們只能談算法,這種算法會不會比另一種算法更有欺騙性?我們在模型訓(xùn)練的時候,一般都有 training data 和 testing data 以及 validation,經(jīng)歷不同的數(shù)據(jù)的分區(qū)和不同的標(biāo)準(zhǔn)化以后,算法是要經(jīng)過不斷驗證的,以保證最后能夠?qū)崿F(xiàn)對新數(shù)據(jù)的應(yīng)用,這是算法的問題,而不是人類在這里考慮的因素。

Q6:《數(shù)據(jù)如何誤導(dǎo)了我們》一書中認(rèn)為,“闡釋數(shù)據(jù)背后意義的權(quán)利”為國家所掌控,您認(rèn)為這和實際情況相符嗎?當(dāng)前數(shù)據(jù)新聞是否承擔(dān)起了“展現(xiàn)真實情況”的責(zé)任?

沈浩:除了上帝,都應(yīng)該用數(shù)據(jù)說話,數(shù)據(jù)是最有事實的東西,用數(shù)據(jù)說話就是用事實說話。

在大量的數(shù)據(jù)中挖掘出的隱藏在數(shù)據(jù)中的模式、趨勢和相關(guān)性,幾乎不可能造假。在這種情況下,我們需要去思考數(shù)據(jù)的價值是什么,數(shù)據(jù)能否揭示商業(yè)和社會發(fā)展規(guī)律的問題。

到了大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)不僅僅是我們的一門學(xué)科,而且成為國家掌控的重要的信息來源。我們經(jīng)常談信息戰(zhàn)、輿論戰(zhàn),實際上信息戰(zhàn)就是數(shù)據(jù)戰(zhàn)。

新聞是新近報道的事實。數(shù)據(jù)新聞從數(shù)據(jù)中挖掘,它一定是事實。事實是否是真相,是否符合社會倫理,這里面涉及到價值的問題。我們說數(shù)據(jù)呈現(xiàn)了真相,但是受眾如何理解,這需要我們?nèi)チ私夂团袛?。?dāng)然結(jié)論一定是數(shù)據(jù)新聞通過數(shù)據(jù)展現(xiàn)真實,這是不可或缺的要件。否則你做出來的數(shù)據(jù)新聞可能就是假的,會誤導(dǎo)別人。

然而,這些概念、我們討論的語境都是普世價值范圍內(nèi)的。如果我們要打的是輿論戰(zhàn)、認(rèn)知戰(zhàn),那我們也知道,“造假”也是一種新聞。這種 disinformation、misinformation,像 BBC、紐約時報,他們那些東西盡管呈現(xiàn)了所謂的客觀真實,但是他的用意可能對我們來講就是敵意。

我們還是需要有數(shù)據(jù)支撐的,至少比沒有數(shù)據(jù)更好。但是用數(shù)據(jù)說謊、統(tǒng)計的謊言——數(shù)據(jù)所帶來的偏,這些其實一直伴隨著數(shù)據(jù)和統(tǒng)計的發(fā)展。我們可以看一看 ChatGPT。ChatGPT 是一個由全人類的數(shù)據(jù)生成的一個知識信息機器人。但是我們同樣會思考,ChatGPT 后邊有沒有價值觀的問題?文心一言是不是也有這樣的問題呢?這些東西其實都是不可或缺的話題,也是需要我們?nèi)ド钊胙芯康摹?/p>

Q7:您認(rèn)為數(shù)據(jù)新聞為傳統(tǒng)新聞注入了怎樣的新鮮血液?

沈浩:未來的新聞是數(shù)據(jù)分析。今天的數(shù)據(jù)新聞是讓新聞更具有科技感,圖像、語言文字、聲音都可以進行智能處理,所以有“有圖像無真相”的事情。現(xiàn)在做新聞的人,都變成了事實審核師。對開源的情報信息可視化技術(shù)、對事實進行追查和核實,都將帶來數(shù)據(jù)新聞一種新的功能體現(xiàn)——新聞?wù)鎸崱S绕溽槍?disinformation(虛假信息),針對輿論戰(zhàn)和信息戰(zhàn),對故意傳播的新聞進行審核,這是數(shù)據(jù)新聞的能力和方向,這是第一點。

第二點,數(shù)據(jù)新聞在智能媒體出現(xiàn)后,可能會借助智能媒體快速生成新聞的新的表達形式,生產(chǎn)出既具有數(shù)據(jù)新聞的特色,同時又有更好的表達形式和傳播能力的新聞產(chǎn)品,來測繪社會,使受眾感知。

第三點,現(xiàn)在的武器在媒介化,媒介在武器化,對于國際上的傳播,我們?nèi)绾瓮ㄟ^數(shù)據(jù)對敵,加強我們用數(shù)據(jù)說話外宣的能力,這是很重要的內(nèi)容。

我作為一位 30 多年教齡的老教師,沒辦法跟上年輕人的節(jié)奏,這些東西都是年輕人的事業(yè)。我從數(shù)學(xué)到新聞又離開新聞,每天在寫代碼還有學(xué)新的東西。學(xué)生的創(chuàng)意完全超過老師,對于全新的東西,學(xué)生和老師都在共同成長。 

 

采寫 / 文知知 黃燦 宋京豫 董雨荷

編輯 / 徐心遠 賈司瑒

統(tǒng)籌 / 詹新惠 汪惠怡 湃客·有數(shù)

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司