中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

43.1萬(wàn)項(xiàng)研究背后:科學(xué)新聞是否夸大了科學(xué)發(fā)現(xiàn)的確定性?

2022-05-26 08:00
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽(tīng)全文
字號(hào)

原創(chuàng) Pei and Jurgens 集智俱樂(lè)部

導(dǎo)語(yǔ)

確定性和不確定性是科學(xué)傳播的基礎(chǔ)。在公眾印象中,科學(xué)新聞似乎常常會(huì)夸大一些科學(xué)發(fā)現(xiàn)。但事實(shí)果真如此嗎?期刊論文和科學(xué)新聞對(duì)同一研究發(fā)現(xiàn)的確定性的表述存在怎樣的差異?我們知道,在句子中加入“可能”“大概”等模糊性詞語(yǔ)會(huì)減弱確定性,精確的數(shù)字則會(huì)增加確定性。然而,確定性實(shí)際上是非常復(fù)雜的結(jié)構(gòu),包含不同方面的確定性。一項(xiàng)最新研究使用包含2167個(gè)注釋的科學(xué)發(fā)現(xiàn)的數(shù)據(jù)集,對(duì)科學(xué)傳播中句子層面和方面層面的確定性進(jìn)行度量,發(fā)現(xiàn)模糊限制語(yǔ)和確定性之間只有適度的相關(guān)性。對(duì)43.1萬(wàn)個(gè)科學(xué)發(fā)現(xiàn)的分析表明,相比于期刊論文,科學(xué)新聞通常并不會(huì)夸大科學(xué)發(fā)現(xiàn),而是會(huì)淡化科學(xué)發(fā)現(xiàn)的確定性。

研究領(lǐng)域:NLP,科學(xué)學(xué)

Pei and Jurgens | 作者

李倩倩 | 譯者

梁金 | 審校

鄧一雪 | 編輯

論文題目:

Measuring Sentence-Level and Aspect-Level (Un)certainty in Science Communications

論文鏈接:

https://arxiv.org/abs/2109.14776

確定性和不確定性是科學(xué)傳播的重要組成部分。然而,在語(yǔ)言學(xué)和科學(xué)傳播研究中,如何對(duì)確定性建模一直是一個(gè)具有挑戰(zhàn)性的問(wèn)題。本研究旨在回答以下問(wèn)題:(1)模糊限制語(yǔ)是否是衡量科技文本確定性的一個(gè)好指標(biāo)?(2) 如何在科學(xué)傳播中建立確定性模型?(3)科學(xué)發(fā)現(xiàn)的確定性在科學(xué)傳播中是否會(huì)發(fā)生變化?(4) 什么因素會(huì)影響新聞和摘要中科學(xué)發(fā)現(xiàn)的確定性?

在這項(xiàng)研究中,我們創(chuàng)建了(i)一個(gè)新的數(shù)據(jù)集和方法來(lái)衡量科學(xué)發(fā)現(xiàn)的確定性,以及(ii)一個(gè)用于確定性預(yù)測(cè)的NLP模型。我們將該模型應(yīng)用于超過(guò)43.1萬(wàn)個(gè)科學(xué)發(fā)現(xiàn),研究了科學(xué)傳播中的一系列研究問(wèn)題。

圖1. 確定性是一種多維度的結(jié)構(gòu)。一個(gè)科學(xué)發(fā)現(xiàn)的確定性可以從句子層面的描述中感知,但科學(xué)發(fā)現(xiàn)可能包含不同方面的確定性。

我們的分析表明:1)模糊限制語(yǔ)不能完全捕捉科學(xué)發(fā)現(xiàn)中句子層面和方面層面的確定性(aspect-level certainty);2)通過(guò)超過(guò)6000個(gè)來(lái)自新聞和摘要的配對(duì)發(fā)現(xiàn),新聞發(fā)現(xiàn)的句子層面確定性較低,這與現(xiàn)有研究認(rèn)為記者傾向于使科學(xué)聽(tīng)起來(lái)更確定相矛盾;3)論文摘要的發(fā)現(xiàn)因期刊影響和團(tuán)隊(duì)規(guī)模而異:低影響力的期刊和大型團(tuán)隊(duì)通常以更高的句子層面的確定性呈現(xiàn)科學(xué)發(fā)現(xiàn)。然而,這種模式在科學(xué)新聞中并不存在。

1. 模糊限制語(yǔ)不能完全捕捉

句子層面和方面層面的確定性

模糊限制語(yǔ)被廣泛地用作語(yǔ)言不確定性的代名詞。然而,模糊限制語(yǔ)是否能夠完全捕捉句子層面和方面層面的確定性仍然不清楚?;谧⑨寯?shù)據(jù),我們的研究首先檢驗(yàn)了模糊限制語(yǔ)在多大程度上可以解釋科學(xué)發(fā)現(xiàn)中確定性的差異。將句子層面的確定性與模糊限制語(yǔ)的數(shù)量進(jìn)行比較(圖2上),結(jié)果表明,模糊限制語(yǔ)和確定性之間只有適度的相關(guān)性,皮爾遜r=0.55,盡管它們被廣泛用作指標(biāo)(proxy)。例如,“需要進(jìn)一步研究以了解這是否是因果關(guān)系”不包含任何模糊限制語(yǔ),但明確表達(dá)了對(duì)因果關(guān)系的強(qiáng)烈不確定性,這表明許多確定性的描述不能被簡(jiǎn)單的基于模糊限制語(yǔ)的詞典很好地捕捉到。

此外,作者在描述確定性的不同方面時(shí),使用模糊限制語(yǔ)的頻率各不相同(圖2下)。這種分布上的差異表明,模糊限制語(yǔ)作為獲取各方面不確定性的指標(biāo)效果較差。

圖2. 模糊限制語(yǔ)和確定性之間只有適度的相關(guān)性

2. 不同方面確定性對(duì)整體句子層面的確定性有不同影響

在科學(xué)發(fā)現(xiàn)中,不同方面可以有不同的確定性。不同方面的確定性對(duì)整體感知的句子層面確定性的貢獻(xiàn)是否相同?答案是否定的?;跇?biāo)注后的數(shù)據(jù),我們計(jì)算了當(dāng)每個(gè)方面都是確定/不確定時(shí)的相對(duì)句子層面確定性。如下圖所示,關(guān)于“可能性”(Probability)和“建議”(Suggestion)的不確定性與句子層面確定性的急劇下降有關(guān)。然而,關(guān)于“數(shù)量”(Number)和“程度”(Extent)的不確定性只與句子層面確定性的小幅下降有關(guān)。簡(jiǎn)而言之,科學(xué)發(fā)現(xiàn)的整體確定性主要受“可能性”和“建議”的影響,而受“數(shù)量”和“程度”等其他方面的影響較小。這一結(jié)果表明,對(duì)各方面的描述在如何有助于對(duì)科學(xué)發(fā)現(xiàn)的整體確定性的感知方面有所不同。

 

圖3. 方面確定性對(duì)句子層面確定性有不同影響

3. 在科學(xué)傳播中,記者實(shí)際上可能淡化科學(xué)發(fā)現(xiàn)的確定性

長(zhǎng)期以來(lái),科學(xué)新聞是否讓科學(xué)聽(tīng)起來(lái)更加確定,一直是一個(gè)重要但未得到解答的問(wèn)題。我們的模型能夠在科學(xué)傳播中發(fā)現(xiàn)并檢驗(yàn)這個(gè)問(wèn)題?;貧w分析表明,新聞描述的句子層面確定性低于同一發(fā)現(xiàn)的摘要描述確定性 (p<0.01)。盡管一些研究表明,科學(xué)新聞傾向于消除模糊限制語(yǔ),以更確定的方式描述科學(xué)發(fā)現(xiàn),但我們進(jìn)行了成對(duì)檢驗(yàn),研究發(fā)現(xiàn)結(jié)果恰好相反:與摘要中的發(fā)現(xiàn)相比,新聞中的發(fā)現(xiàn)不太確定,即使在控制內(nèi)容和許多語(yǔ)境因素的情況下依然如此。

對(duì)方面層面確定性的進(jìn)一步分析揭示了這一現(xiàn)象背后的機(jī)制:摘要中的發(fā)現(xiàn)與更多關(guān)于“框架”(Framing)和“數(shù)量” 的確定性有關(guān)。新聞中的發(fā)現(xiàn)與“可能性”“程度”和“數(shù)量”的不確定性相關(guān),表明記者傾向于淡化某些方面的確定性,尤其是在數(shù)字信息方面。

 

圖4. (上)科學(xué)新聞的句子層面確定性比論文摘要低;(下)科學(xué)新聞傾向于淡化“數(shù)量”(Number)和“框架”(Framing)方面的確定性。

4. 影響力低的期刊通常以更高的句子層面確定性呈現(xiàn)科學(xué)發(fā)現(xiàn)

期刊的影響因子長(zhǎng)期以來(lái)一直被認(rèn)為是與科學(xué)質(zhì)量相關(guān)的核心因素之一。當(dāng)發(fā)現(xiàn)出現(xiàn)在具有不同影響因子的期刊中,是否以不同的方式呈現(xiàn)確定性?答案是肯定的。如下圖所示,影響力較低的期刊中的研究結(jié)果具有最高的確定性,而出現(xiàn)在影響力相對(duì)較高的期刊中的發(fā)現(xiàn)則以相對(duì)較低的確定性進(jìn)行描述。

對(duì)這一現(xiàn)象的一個(gè)可能的解釋是,發(fā)表在審查流程更嚴(yán)格的期刊上的高質(zhì)量論文更準(zhǔn)確地呈現(xiàn)確定性,這導(dǎo)致與低影響期刊的發(fā)現(xiàn)相比總體確定性較低。作為比較,記者撰寫(xiě)的研究結(jié)果的確定性與期刊影響因子沒(méi)有顯著相關(guān)性,這表明期刊的聲望并不影響記者呈現(xiàn)科學(xué)發(fā)現(xiàn)的方式。

 

圖5. 期刊影響因子越小,科學(xué)發(fā)現(xiàn)的句子層面確定性越高

5. 大型團(tuán)隊(duì)通常以更高的句子層面確定性呈現(xiàn)科學(xué)發(fā)現(xiàn)

在團(tuán)隊(duì)科學(xué)的時(shí)代,人們發(fā)現(xiàn)團(tuán)隊(duì)規(guī)模與科學(xué)的許多核心方面有關(guān),包括質(zhì)量和影響力??茖W(xué)確定性的呈現(xiàn)是否也隨著研究團(tuán)隊(duì)的規(guī)模而變化?答案是肯定的。使用我們的數(shù)據(jù)和模型,我們發(fā)現(xiàn)作者數(shù)量與科學(xué)發(fā)現(xiàn)的總體確定性水平之間存在線性關(guān)系,即使對(duì)領(lǐng)域和作者進(jìn)行參數(shù)控制也是如此。多種機(jī)制可以解釋這種行為。由于更多的個(gè)人參與和檢查結(jié)果,或者由于團(tuán)隊(duì)科學(xué)中能夠進(jìn)行規(guī)模實(shí)驗(yàn),更大的團(tuán)隊(duì)本身可能更有能力產(chǎn)生更多確定的結(jié)果。此外,我們的結(jié)果也與之前的發(fā)現(xiàn)相聯(lián)系,即小團(tuán)隊(duì)更容易產(chǎn)生新的顛覆性想法,大團(tuán)隊(duì)則傾向于開(kāi)發(fā)舊的、現(xiàn)有的想法,因?yàn)樾孪敕ㄍǔEc更多的不確定性相關(guān)。

然而,這種線性趨勢(shì)在科學(xué)新聞中并不持續(xù)。相反,科學(xué)新聞中發(fā)現(xiàn)的句子層面確定性在不同數(shù)量的作者中保持相對(duì)穩(wěn)定。雖然已發(fā)現(xiàn)團(tuán)隊(duì)規(guī)模與科學(xué)的新穎性和影響力有關(guān),但我們的研究結(jié)果表明,記者在描述發(fā)現(xiàn)的確定性時(shí)很大程度上不受研究團(tuán)隊(duì)規(guī)模的影響。

圖6. 作者數(shù)量越多,科學(xué)發(fā)現(xiàn)的句子層面確定性越高

作為論文的一部分,帶注釋的確定性數(shù)據(jù)集、代碼和用于確定性預(yù)測(cè)的微調(diào)模型,以及論文中使用的科學(xué)新聞和論文摘要的URL,都可以在以下鏈接獲得:

https://jiaxin-pei.github.io/project_websites/certainty/Certainty-in-Science-Communication.html

計(jì)算社會(huì)科學(xué)讀書(shū)會(huì)第二季

計(jì)算社會(huì)科學(xué)作為一個(gè)新興交叉領(lǐng)域,越來(lái)越多地在應(yīng)對(duì)新冠疫情、輿論傳播、社會(huì)治理、城市發(fā)展、組織管理等社會(huì)問(wèn)題和社科議題中發(fā)揮作用,大大豐富了我們對(duì)社會(huì)經(jīng)濟(jì)復(fù)雜系統(tǒng)的理解。相比于傳統(tǒng)社會(huì)科學(xué)研究,計(jì)算社會(huì)科學(xué)廣泛采用了計(jì)算范式和復(fù)雜系統(tǒng)視角,因而與計(jì)算機(jī)仿真、大數(shù)據(jù)、人工智能、統(tǒng)計(jì)物理等領(lǐng)域的前沿方法密切結(jié)合。為了進(jìn)一步梳理計(jì)算社會(huì)科學(xué)中的各類模型方法,推動(dòng)研究創(chuàng)新,集智俱樂(lè)部發(fā)起了計(jì)算社會(huì)科學(xué)系列讀書(shū)會(huì)。

新一季由清華大學(xué)羅家德教授領(lǐng)銜,卡內(nèi)基梅隆大學(xué)、密歇根大學(xué)、清華大學(xué)、匹茲堡大學(xué)的多位博士生聯(lián)合發(fā)起,自2022年6月18日開(kāi)始,持續(xù)10-12周。本季讀書(shū)將聚焦討論Graph、Embedding、NLP、Modeling、Data collection等方法及其與社會(huì)科學(xué)問(wèn)題的結(jié)合,并針對(duì)性討論預(yù)測(cè)性與解釋性、新冠疫情研究等課題。

原標(biāo)題:《43.1萬(wàn)項(xiàng)研究背后:科學(xué)新聞是否夸大了科學(xué)發(fā)現(xiàn)的確定性?》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司