AI社會學︱算法的21種“公平”，你要哪一種？

沈虹

2020-07-16 17:58

2016年5月，美國著名的非盈利媒體ProPublica發(fā)表了一篇題為《機器偏見》(Machine Bias) 的調(diào)查性報道。如果之前在人工智能和機器學習領(lǐng)域有關(guān)公平 (fairness) 和偏見 (bias) 的議題還只是小范圍的學界爭論，僅在FATML (Fairness, Accountability, and Transparency in Machine Learning) 等新興會議里被討論，這篇報道之后關(guān)鍵詞里涉及“公平”的機器學習論文開始呈指數(shù)級增長。有普林斯頓計算機系教授阿爾文德?納拉亞南（Arvind Narayanan）精心制作的美圖為證：

圖片來源：Narayanan, Arvind. "21 definitions of fairness and their politics. (Feb.23, 2018)." In Tutorial presented at the Conference on Fairness, Accountability, and Transparency, vol. 21.

在這篇影響力巨大的報道里，ProPublica分析了一個名為COMPAS的機器學習系統(tǒng)。在美國地方的司法體系里，COMPAS被廣泛應(yīng)用于預(yù)測被告的再犯幾率，作為建議量刑的基礎(chǔ)?；谝幌盗袕?fù)雜的歷史數(shù)據(jù)，包括年齡、性別和已有的犯罪記錄，COMPAS預(yù)測案件行為人(或被告)被再次逮捕的概率，得出一個1到10分之間的 “危險分” (risk score) 供法官參考：分數(shù)越高，行為人被再次逮捕的概率越高，也就越危險。

機器學習的擁躉們認為，比起人類法官們固有的歧視和偏見，利用大數(shù)據(jù)得出的結(jié)論要客觀中立的多。畢竟，數(shù)據(jù)不會說謊，算法永遠客觀，不是嗎？然而，ProPublica的報道提示了另外一種可能。報告利用公開數(shù)據(jù)，分析了佛羅里達州布勞沃德縣（Broward County）1.8萬人的COMPAS分數(shù)和犯罪記錄，得出了一個驚人的發(fā)現(xiàn)：盡管COMPAS的正確預(yù)測率達到了61%，在它的系統(tǒng)里，黑人與白人的分數(shù)分布卻明顯不同。黑人更有可能被誤判，即被預(yù)測為高風險卻沒有再犯，白人則更有可能被漏判，即被預(yù)測為低風險卻再次犯罪。不同種族間的誤判 (false positive) 和漏判 (false negative) 率的差距可以高達50%。

有趣的是，故事在這里并沒有結(jié)束。在ProPublica報道發(fā)布并引起巨大爭議之后，COMPAS的母公司做出了正面回應(yīng)。它重新在ProPublica的數(shù)據(jù)上運行了自己的算法，并公布了自己算法在不同種族之間的分布。COMPAS爭論道，他們的系統(tǒng)是“公平”的，而公平依據(jù)是，在他們的算法里，無論黑人白人，預(yù)測為高風險的被告再次犯罪的概率都是相同的。也就是說，如果你采取的公平定義不是誤判和漏報率，而是高風險的預(yù)測正確率 (predictive parity) 的話，COMPAS的算法并無偏見和歧視之說。

接下來，機器學習和統(tǒng)計學領(lǐng)域的大牛們就這個問題展開了精彩的辯論，各種關(guān)于公平的數(shù)學定義層出不窮，一度達到21種之多。統(tǒng)計學家們很快發(fā)現(xiàn)，COMPAS與ProPublica衡量公平的標準存在沖突。他們采用的公平定義都是抵達某一種“公平”的方式，但如果兩個群體之間本身用來訓練模型的數(shù)據(jù)存在差異（在COMPAS的例子里，黑人的總體再犯率比白人要高），那么在統(tǒng)計上各種“公平”的定義就是不可兼容的。也就是說，算法不可能兼顧ProPublica提出的“公平” 和COMPAS提出的“公平”。即使數(shù)學上可能會有完美的“公平”定義，在現(xiàn)實世界的復(fù)雜社會關(guān)系里，完美且唯一正確的“公平”是不存在的。

納拉亞南在他2018年FATML的教程里戲謔道：現(xiàn)在“公平”這么熱門，如果你想在機器學習的各大會議上灌水，可以想想怎樣再多開發(fā)一些復(fù)雜的、統(tǒng)計學意義上的“公平”定義。這當然是玩笑話。他想進一步指出的是，光致力于發(fā)展統(tǒng)計學上嚴格的“公平”定義可能是徒勞的，不論在數(shù)學上有多么嚴謹。因為不僅人類世界不可能有完美的“公平”算法，每一種所謂的“公平”法則背后其實都是復(fù)雜的社會關(guān)系和政治訴求。

在COMPAS的例子里，案件行為人或被告最關(guān)心的可能是誤判 (false positive) ，而城市居民們最關(guān)心的可能是漏判 (false negative)，兩者是此消彼長的關(guān)系，不可能全部滿足。那么，誰的利益應(yīng)該放在前面？如果必須作出取舍的話，算法里這條取舍的線應(yīng)該畫在哪里？

1980年，社會學家蘭登?溫納（Langdon Winner）寫下了至今仍然是經(jīng)典名篇的《技術(shù)有政治嗎》（Do artifacts have politics）。其議題在算法統(tǒng)治世界的今天仍然重要，也許比任何時候都更加重要。

當時溫納在科技重鎮(zhèn)麻省理工力排眾議，探討科技產(chǎn)物和社會關(guān)系的復(fù)雜互動。他認為，科技產(chǎn)物是有政治性的，而過去政治哲學的討論里大大低估了科技的重要性。但這里的“政治性”并非單向度的“科技影響社會”或是“社會影響科技”；科技在與社會的復(fù)雜互動里生成，進化，并深刻地嵌入和塑造當時當?shù)氐臍v史社會和權(quán)力關(guān)系之中。

溫納舉了1940年代由加州大學研究員在當?shù)亻_發(fā)并推廣的番茄收割機作為其中的一個例子。相比手動收割，機器收割可以大大提高效率?？墒?，雖然以效率和現(xiàn)代之名推廣，這一新興技術(shù)卻并沒有使當?shù)鼐用衿降鹊叵碛兴慕?jīng)濟收益。缺少有效的社會反思和合適的政策約束，昂貴的機器雖然提高了生產(chǎn)力和生產(chǎn)效率，卻促進了番茄種植業(yè)的工業(yè)化和集中化，大大減少了當?shù)匦∞r(nóng)種植者和手工收割者的工作崗位，致使無數(shù)勞動者流離失所?？瓷先ノ⒉蛔愕赖男⌒C器最終以一種令人驚訝的方式徹底重構(gòu)了當?shù)氐纳鐣徒?jīng)濟關(guān)系。

溫納總結(jié)到，“the thing we called ‘technologies’ are ways of building order in our world.” 我們所說的“科技”其實是在這個世界上（重新）建立秩序和規(guī)則的方式，算法同理：誰受益？誰受損？誰得到更大的權(quán)力？誰受到更多的傷害？誰被包含進來？誰又被排除在外？

每年講完COMPAS的案例，都會有學生質(zhì)疑：你講了那么多，具體來說我們到底該怎么做（what are the actionable items here）？21種不同的公平定義，我們調(diào)試模型的時候應(yīng)該使用哪一種？彼時我在計算機學院浸淫稍久，深知 “actionable items”乃是社會學家和計算機學家的根本分歧，紅海兩分，從此無法對話。社會學家的根本目的常常并不是解決問題，并對一切聲稱能將復(fù)雜人類問題簡單化和算法化的路徑持有質(zhì)疑，而工程師的程序里少了一個括號都無法運行。每當這個時候，我都會面露詭異微笑，祭出計算機大牛辛西婭?德沃克（Cynthia Dwork）在這場“公平大辯論”里的名言:

“Fairness” metric is assumed to be public and open to discussion and continual refinement.

當“公平”本身是社會的和政治的，算法不可能也不會是社會關(guān)系的絕緣體。我們能做的第一個“actionable item，”就是把黑箱打開，然后開始問，我們想要的，到底是什么樣的算法“公平”？

【參考文獻】

[1] Angwin, Julia, Jeff Larson, Surya Mattu, and Lauren Kirchner. "Machine bias." ProPublica, May 23 (2016): 2016.

[2] Narayanan, Arvind. "21 definitions of fairness and their politics. (Feb.23, 2018)." In Tutorial presented at the Conference on Fairness, Accountability, and Transparency, vol. 21.

[3] Dieterich, William, Christina Mendoza, and Tim Brennan. "COMPAS risk scales: Demonstrating accuracy equity and predictive parity." Northpointe Inc (2016).

[4] Feller, Avi, Emma Pierson, Sam Corbett-Davies, and Sharad Goel. "A computer program used for bail and sentencing decisions was labeled biased against blacks. It’s actually not that clear." The Washington Post (2016).

[5] Winner, Langdon. "Do artifacts have politics?" Daedalus (1980): 121-136.

[6] Dwork, Cynthia, Moritz Hardt, Toniann Pitassi, Omer Reingold, and Richard Zemel. "Fairness through awareness." In Proceedings of the 3rd innovations in theoretical computer science conference, pp. 214-226. 2012.

-----

作者沈虹，畢業(yè)于美國伊利諾伊大學香檳分校傳播學系，現(xiàn)任職于美國卡內(nèi)基梅隆大學。她用社會學的方法研究新興科技。

責任編輯：單雪菱

校對：張亮亮

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報