- +1
在RStudio年會上,我遇到了一群看似與數(shù)據(jù)無關(guān)的人
RStudio 是 R 語言最常用的集成開發(fā)環(huán)境(IDE),該公司每年都會舉辦為期一周的培訓(xùn)和大會,參會者通常是企業(yè)、政府、學(xué)界負(fù)責(zé)統(tǒng)計(jì)和編程的中層人員,他們的頭銜包括“數(shù)據(jù)科學(xué)家”、“數(shù)據(jù)分析師”、“數(shù)據(jù)工程師”、“統(tǒng)計(jì)學(xué)家”、“增長分析師”等等。培訓(xùn)和大會都是演講形式,由 RStudio 公司員工或其他對使用 R 有豐富心得的各界人士介紹程序拓展包的開發(fā)動向、數(shù)據(jù)分析案例等。

由于培訓(xùn)和大會只有一周,其實(shí)能學(xué)到的技術(shù)知識遠(yuǎn)不足以直接拿來應(yīng)用。我主要的收獲還是對“數(shù)據(jù)”在業(yè)界、學(xué)界、政府部門中的使用有了新的認(rèn)識,也結(jié)識了很多我自己熟悉領(lǐng)域之外的數(shù)據(jù)行業(yè)工作者。
說起“多元化”的時候,我們通常指的是種族、性別等方面。雖然 RStudio 在這些方面做得也很好,讓我印象最深的還是會上行業(yè)和分析方法的多元化。
▍行業(yè)的多元化
在大會上,我認(rèn)識的許多人都來自乍一聽和“數(shù)據(jù)”毫無關(guān)聯(lián)的行業(yè),例如水泵、電力、漁業(yè)等等。深入交談后,我發(fā)現(xiàn)他們的公司都已經(jīng)有幾十人的成熟數(shù)據(jù)團(tuán)隊(duì),日常工作也真的是在獲取、分析數(shù)據(jù),而不是制作充滿熱門詞匯但毫無實(shí)際意義的幻燈片。
下面是我碰到“有趣數(shù)據(jù)人”的不完全名單:
1)全球領(lǐng)先水泵公司的高級數(shù)據(jù)科學(xué)家
據(jù)他介紹,他所在的水泵公司幾年前就在高層領(lǐng)導(dǎo)的推動下建立了數(shù)據(jù)團(tuán)隊(duì),負(fù)責(zé)“預(yù)測性維護(hù)”(即推算水泵最可能在什么時間、什么地點(diǎn)壞掉)。他拿到數(shù)學(xué)博士學(xué)位后加入了該公司,現(xiàn)在團(tuán)隊(duì)已有 20 人。
他們目前只能從新安裝的水泵中獲取數(shù)據(jù),因?yàn)楂@取數(shù)據(jù)需要在水泵中安裝一個硬件設(shè)備。早期的水泵除非公司回收,否則無法獲取任何數(shù)據(jù)。
我還和他聊到在全球不同市場的合規(guī)問題——這家公司業(yè)務(wù)遍及世界各個大國,這么收集數(shù)據(jù)肯定容易引發(fā)法律爭議。他說他做法務(wù)的同事一直在研究這個問題,公司目前只在其熟悉的市場收集數(shù)據(jù)。
2)美國某大型能源公司的首席氣象學(xué)家
我們開始聊天是因?yàn)槲野l(fā)現(xiàn)他名片上的公司標(biāo)志和我每個月付電氣費(fèi)網(wǎng)站的標(biāo)志一模一樣。
這位氣象學(xué)博士在公司的可再生能源部門,負(fù)責(zé)收集精確到分鐘的氣象數(shù)據(jù),預(yù)測美國各地區(qū)未來五年、十年有多少太陽能和風(fēng)能可被利用。
他介紹自己工作的時候兩眼放光,特別勵志。他說他 14 歲就想做氣象學(xué)家了,所以現(xiàn)在可以每天分析氣象數(shù)據(jù)非常幸福。
3)幫美國聯(lián)邦政府做全國性調(diào)查的私營公司統(tǒng)計(jì)學(xué)家
美國聯(lián)邦政府常規(guī)開展許多大型全國調(diào)查,研究內(nèi)容包括居民就業(yè)、健康、學(xué)生閱讀水平等等。有些聯(lián)邦政府部門(例如勞動統(tǒng)計(jì)局 Bureau of Labor Statistics)有全職員工負(fù)責(zé)調(diào)查工作,但是多數(shù)部門因?yàn)橘Y源有限,所以把調(diào)查外包給私營公司。我見到的就是這樣一個公司的統(tǒng)計(jì)學(xué)家和程序員。
公司開展一項(xiàng)全國調(diào)查的程序大概是這樣的:統(tǒng)計(jì)學(xué)家首先進(jìn)行抽樣,確保調(diào)查樣本具有代表性。為了保證少數(shù)族裔的調(diào)查結(jié)果可靠,統(tǒng)計(jì)學(xué)家還要過采(oversample)少數(shù)族裔。確定完樣本以后,調(diào)查員就去敲門做調(diào)查了。數(shù)據(jù)返回給總部后,有專門清洗數(shù)據(jù)的部門來清洗數(shù)據(jù)(佩服這個部門的員工?。?。清洗完后,統(tǒng)計(jì)學(xué)家對結(jié)果進(jìn)行加權(quán)。公司還有很多程序員來開發(fā)方便統(tǒng)計(jì)學(xué)家工作的公司內(nèi)部工具。
有一位負(fù)責(zé)居民健康調(diào)查的統(tǒng)計(jì)學(xué)家介紹了“受訪者自行匯報(bào)數(shù)據(jù)”(self-reported data)的可靠性。她說,如果調(diào)查員問受訪者他的身高體重,基本上所有人都會高報(bào)身高、少報(bào)體重。所以可靠的調(diào)查都是調(diào)查員帶著尺子和稱,現(xiàn)場去量的。
這讓我想到美國人口普查局的一項(xiàng)研究,他們把稅務(wù)部門的居民繳稅數(shù)據(jù)和經(jīng)濟(jì)調(diào)查中受訪者自行匯報(bào)的收入數(shù)據(jù)合并,發(fā)現(xiàn)在一個家庭中,當(dāng)妻子掙得比丈夫多時,妻子會大幅少報(bào)自己的收入,丈夫會大幅高報(bào)。這種現(xiàn)象在丈夫比妻子掙得多的家庭卻不存在。
4)美國最大招聘網(wǎng)站之一的經(jīng)濟(jì)學(xué)家、數(shù)據(jù)科學(xué)家
我有幸認(rèn)識了這家公司五個不同崗位的員工,他們有的負(fù)責(zé)分析網(wǎng)站的招聘數(shù)據(jù),定期發(fā)布美國勞動市場報(bào)告;有的則分析雇主在網(wǎng)站上的行為,預(yù)測哪些雇主更有可能投放廣告,付費(fèi)推廣他們的空缺職位。
讓我印象最深的是這五個人的教育背景。五人中只有一個是經(jīng)濟(jì)學(xué)專業(yè),其他人來自生物、社會學(xué)、法律、信息科學(xué)(information studies)背景。他們都說公司致力于建立多元化團(tuán)隊(duì)。
5)國際慈善組織的數(shù)據(jù)分析主任
出乎我意料的是,這家組織也有十多人的數(shù)據(jù)團(tuán)隊(duì)。不過他們目前收集、分析的只是該組織各個慈善項(xiàng)目的收支。主任說,她非常希望團(tuán)隊(duì)可以從實(shí)證角度分析每個慈善項(xiàng)目的影響,但數(shù)據(jù)采集需要的花費(fèi)太高,目前她的組織沒有這樣的資源。
我問她,缺少資源是因?yàn)榇壬平M織缺錢嗎?她說,問題其實(shí)是社會和捐贈人都希望慈善組織的錢可以盡可能花在實(shí)際救助上,而她的數(shù)據(jù)團(tuán)隊(duì)相當(dāng)于“管理層”,沒有人會希望善款花在“管理費(fèi)”上。
不過,積極的一面是,這個慈善組織幾年前就建立了內(nèi)部數(shù)據(jù)庫。該組織世界各地的辦公室之間發(fā)送、更新數(shù)據(jù),已經(jīng)不再使用 Excel。講到這里,這位數(shù)據(jù)分析主任終于笑了。
▍還有很多其他有趣的人...
- 美國國防部下屬研究院的分析師(工作內(nèi)容不涉密)
- 為加拿大地方政府做“漁業(yè)數(shù)據(jù)可視化”的咨詢師
- 美國知名大學(xué)基因?qū)嶒?yàn)室的科學(xué)家
- 大型共同基金的市場營銷主管和軟件工程師
我問他們在做每個季度收益圖的時候可不可以通過修改畫圖方法來展示一條“更好”的收益線。他們說,行業(yè)有相關(guān)規(guī)定,大型基金在畫圖的時候都有統(tǒng)一模版,不能擅自修改。

除了行業(yè)的多元化,大會讓我印象深刻的還有分析方法的多元化。社會科學(xué)主要講因果推斷(causal inference),其他的分析方法很少涉及。這次在 RStudio 大會,我見到了更多的分析方法。
預(yù)測性分析(predictive analysis)
“不經(jīng)思考就隨意把各個變量丟進(jìn)軟件里跑回歸”可以說是社會科學(xué)研究之大忌,不過我在 RStudio 大會上卻見到了不少適合這種方法的應(yīng)用場景。在實(shí)驗(yàn)科學(xué)中,大量回歸分析可以幫我們找到可能的因果關(guān)系,之后我們可以再用控制實(shí)驗(yàn)來準(zhǔn)確證明。在市場營銷領(lǐng)域,知道 “A 可以很好地預(yù)測 B” 已經(jīng)足夠了。非要弄清楚它們之間有沒有因果關(guān)系,很多時候是浪費(fèi)時間。
A/B 測試(又稱線上實(shí)驗(yàn))
社會科學(xué)家也做實(shí)驗(yàn),但我的理解是,他們和業(yè)界人士的關(guān)注點(diǎn)不同。業(yè)界的實(shí)驗(yàn),例如“改變某個按鈕的顏色”,通常在因果識別方面沒有社會科學(xué)實(shí)驗(yàn)?zāi)敲础奥闊薄鐣茖W(xué)實(shí)驗(yàn)常常會出現(xiàn)“實(shí)驗(yàn)組人員接受了對照組的處理”、“實(shí)驗(yàn)組人員互相影響”等各種問題。業(yè)界的實(shí)驗(yàn)在這方面相對簡單直接,但由于其數(shù)據(jù)規(guī)模大、實(shí)驗(yàn)頻率高,所以業(yè)界的數(shù)據(jù)人員更關(guān)注以下兩點(diǎn):
建立完善的底層架構(gòu)、自動化工作程序,這樣線上實(shí)驗(yàn)可以更規(guī)范;
提高非數(shù)據(jù)人員對線上實(shí)驗(yàn)的理解,這樣他們可以在實(shí)驗(yàn)前就定好實(shí)驗(yàn)計(jì)劃,實(shí)驗(yàn)開始后不會再修改樣本或者實(shí)驗(yàn)時長。
描述性分析(descriptive analysis)
光是有描述性分析在社會科學(xué)界很難發(fā)表論文,但在 RStudio 大會上,我看到了描述數(shù)據(jù)的價值。過去這一年,有不少孩子在美國邊境被移民局工作人員帶離了他們父母。民間法律組織 ACLU 的數(shù)據(jù)科學(xué)家 Brooke Watson 匯總了這些孩子的基本信息,并向 RStudio 大會參會者介紹了孩子的安置情況。
她花了幾個星期時間,從各地民間組織那里獲得了孩子們的基本信息(姓名、生日、性別、安置地)。但由于這些 Excel 表格格式不一,她每天的工作就是清洗這些數(shù)據(jù),最終合并成一個大表格。
這些數(shù)據(jù)并不全,她也不知道有多少孩子沒有被收錄。但就是這樣一個殘缺、不具代表性的數(shù)據(jù)集還是引起了很大反響。她制作了地圖、分析表格后,收到了美國各地民眾和議員的來信,很多人因此而決定行動起來。
每位數(shù)據(jù)工作人員其實(shí) 90% 的時間都在清洗數(shù)據(jù),不過我們通常不會因此得到任何贊揚(yáng),因?yàn)椤扒逑磾?shù)據(jù)”聽起來是一項(xiàng)機(jī)械、技術(shù)含量遠(yuǎn)不如“建?!钡墓ぷ?。但我覺得,能堅(jiān)持幾周、幾個月清洗完大量來源復(fù)雜的數(shù)據(jù),本身值得嘉獎?;貧w系數(shù)是知識,描述性的總結(jié)數(shù)據(jù)也是知識。
▍包容的氛圍
RStudio 大會包容的氛圍也讓我印象深刻。我作為學(xué)生,一開始很擔(dān)心這些從事數(shù)據(jù)工作的中層管理人員會很難接近。實(shí)際上,他們是我見過最聰明卻最友善的一群人。我打招呼的每個人都細(xì)心跟我介紹他所在行業(yè)最基礎(chǔ)的知識,除了專業(yè)內(nèi)容還又介紹了很多職場經(jīng)驗(yàn)。
大會組織者對營造這樣的氛圍非常上心。他們多次強(qiáng)調(diào),幾個人如果圍成一個圈聊天,一定要留一點(diǎn)空間,好讓其他人加入。大會的行為守則也提供了很多舉報(bào)騷擾等不端行為的方法。我在大會上還見到了哺乳期的媽媽、坐輪椅的殘疾人。
▍申請獎學(xué)金
2020 年的 RStudio 年會將在一月的舊金山舉行。每年獎學(xué)金面向的人群不同,感興趣的朋友可以在 2019 年八月關(guān)注 RStudio 網(wǎng)站。
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




