- +1
機(jī)器人已試點(diǎn)參與多次大規(guī)模考試,探索作文等開放式題目評分
對于各大考試來說,閱卷是相當(dāng)重要的一環(huán),同時(shí)也耗時(shí)耗力。而隨著人工智能不斷升級,近年來機(jī)器人閱卷技術(shù)已日漸成熟。
近日,科大訊飛相關(guān)人士向澎湃新聞(www.nxos.com.cn)表示,在教育部考試中心的組織下,智能閱卷技術(shù),已經(jīng)在全國多個(gè)省份的大規(guī)??荚嚕ㄈ缰懈呖?、成人高考、學(xué)業(yè)水平測試等考試)中通過了多次多范圍試點(diǎn)驗(yàn)證。
在2017年湖北省的中考中,襄陽市率先引進(jìn)了智能評卷系統(tǒng),該市教育考試院院長劉朝志對媒體表示,“相比人工閱卷,智能閱卷除了在閱卷速度上有優(yōu)勢外,還能彌補(bǔ)其在雷同卷、空白卷處理上的不足。”
大規(guī)??荚囍幸堰M(jìn)行多次多范圍試點(diǎn)驗(yàn)證
2016年3月,教育部考試中心和科大訊飛成立了聯(lián)合實(shí)驗(yàn)室,共同開展人工智能技術(shù)在智能閱卷、命題、考試評價(jià)分析等方面的研究。
近日,科大訊飛方面告訴澎湃新聞,目前,在考試中心的組織下,科大訊飛的全學(xué)科智能閱卷技術(shù)已在學(xué)業(yè)水平測試,例如大學(xué)英語四六級,以及全國多個(gè)省份的高考、中考、成人高考等大規(guī)??荚囍羞M(jìn)行了多次多范圍試點(diǎn)驗(yàn)證。
驗(yàn)證結(jié)果表明,計(jì)算機(jī)評分結(jié)果已經(jīng)達(dá)到了現(xiàn)場閱卷老師的水平,完全滿足大規(guī)??荚嚨男枰?。
以往,進(jìn)行幾十萬、幾百萬份考試試卷樣本的分析需要耗費(fèi)巨大的人力資源,可行性很低,但如今通過精準(zhǔn)的圖文識別以及海量文本檢索技術(shù),可以快速核對檢查所有試卷與目標(biāo)相似的文本,并迅速提取并標(biāo)注出可能存在問題的試卷。
據(jù)《襄陽晚報(bào)》報(bào)道,與往年中考閱卷不同的是,2017年湖北襄陽市中考閱卷在全省率先引進(jìn)了智能評卷系統(tǒng)。閱卷點(diǎn)一位技術(shù)人員說,智能評卷系統(tǒng)可進(jìn)行工作量分析,可列出每個(gè)評卷源評卷總量,監(jiān)控每個(gè)老師的評卷質(zhì)量。
襄陽市教育考試院院長劉朝志稱,有了智能閱卷大數(shù)據(jù),每道題的得分情況,全市的平均點(diǎn),哪塊知識學(xué)生掌握得好,哪一塊教育教學(xué)不到位,都可出一份教育教學(xué)診斷報(bào)告,更有利于老師教、學(xué)生學(xué)?!跋啾热斯ら喚?,智能閱卷除了在閱卷速度上有優(yōu)勢外,還能彌補(bǔ)其在雷同卷、空白卷處理上的不足?!?/p>
據(jù)襄陽市教育考試院中招科工作人員龔勛介紹,智能閱卷系統(tǒng)可覆蓋絕大多數(shù)的范文。運(yùn)用智能系統(tǒng)后,可在海量數(shù)據(jù)里面搜索,就能準(zhǔn)確判斷是否抄襲了范文。
7月19日,劉朝志向澎湃新聞表示,目前還需更多時(shí)間才能對外透露更多信息。
科大訊飛方面告訴澎湃新聞,智能閱卷采用了基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的圖文識別技術(shù),已經(jīng)達(dá)到人眼識別中英文手寫字符相當(dāng)?shù)乃?。該?xiàng)技術(shù)應(yīng)用于正式考試中,可以輔助人工閱卷,減少人員投入,降低人工閱卷中疲勞、情緒等因素的影響,進(jìn)一步提升人工閱卷評分的效率、準(zhǔn)確性和公平性,從而對整個(gè)產(chǎn)業(yè)產(chǎn)生極大的變革。
此外,通過該項(xiàng)技術(shù),將全部考生作答試卷都進(jìn)行電子化后生成的海量、準(zhǔn)確的分析數(shù)據(jù)也為之后教與學(xué)的研究提供了有力素材,并且提供了未來可被良好應(yīng)用的、與考試閱卷業(yè)務(wù)深度結(jié)合的突破點(diǎn)。比如,通過智能化的評分和批改加強(qiáng)與真實(shí)的課堂更好地結(jié)合。
“在做的大項(xiàng)目中有一些技術(shù)成果可以用于高考閱卷,但根本的目的是引入人工智能將閱卷推向3.0時(shí)代。”6月,科大訊飛輪值總裁吳曉如對澎湃新聞表示,“閱卷1.0時(shí)代是紙筆閱卷,2.0時(shí)代是在網(wǎng)上把人組織起來用機(jī)器自動(dòng)評閱一些客觀題,而在人工智能時(shí)代,已經(jīng)可以開始對主觀題進(jìn)行自動(dòng)評閱。”
機(jī)器批改主觀題早不再是空想
一般考試中通常包含客觀題和主觀題兩個(gè)部分。而在有了答題卡、掃描儀后,客觀題全部可以由機(jī)器批閱。不僅閱卷速度大大提升,而且更加準(zhǔn)確。
而自20世紀(jì)60年代以來,國外許多專家和學(xué)者就開始致力于主觀題的機(jī)器閱卷技術(shù)研究,出現(xiàn)了各種不同的自動(dòng)批改系統(tǒng),例如美國的MBA、托??荚囍芯蛻?yīng)用了E-rater系統(tǒng)。但這些系統(tǒng)大部分針對的都是第二語言作文,即非母語作文。但是,批閱學(xué)生用母語寫的作文需要在更高層次,比如作文的文采、篇章的銜接、作文立意等方面做出評判。
到了2015年11月,科大訊飛的機(jī)器智能閱卷技術(shù)在安慶、合肥等地成功試點(diǎn)應(yīng)用。經(jīng)過對人機(jī)評分結(jié)果的分析,計(jì)算機(jī)在評分一致率、平均分差、相關(guān)度以及與仲裁分更接近的比例等指標(biāo)方面都已達(dá)到或超過人工評分水平。這意味著,機(jī)器評閱主觀題已不再是空想。
那么,對于沒有客觀標(biāo)準(zhǔn)答案的主觀題,機(jī)器閱卷的原理和依據(jù)是什么?吳曉如解釋,機(jī)器閱卷和人工閱卷的本質(zhì)區(qū)別在于工作機(jī)理的差異。機(jī)器是通過統(tǒng)計(jì)、推理、判斷來決策,這與人的思維方式不同。在閱卷過程中,機(jī)器采用智能學(xué)習(xí)的方式。通常一組專家評閱約500到1000份試卷后,機(jī)器就能學(xué)習(xí)到這一種試卷的評閱模式并形成一個(gè)模型。這種模型對其他試卷就可以形成有效的處理和覆蓋,再根據(jù)該模型自動(dòng)評閱其他試卷。
而對于度量標(biāo)準(zhǔn)則是,先推選一組公認(rèn)閱卷水平較高的專家,把這一組專家對一組試卷給出的平均分作為一種相對標(biāo)準(zhǔn)。之后,把機(jī)器最后的測試結(jié)果、其他測試員測試的結(jié)果與專家的平均分比較。如果機(jī)器和專家給出平均分更接近、相關(guān)度更高,才認(rèn)為機(jī)器評閱的結(jié)果達(dá)到預(yù)期。
“只有一種簡單的或是標(biāo)準(zhǔn)化的測試模式實(shí)際上是非常容易作弊的,但從目前很多應(yīng)用的結(jié)果來看,還沒有一種辦法能夠很好地欺騙機(jī)器”,吳曉如說,“就像Alpha Go下圍棋一樣,并不是說找到一種客觀、標(biāo)準(zhǔn)的套路就可以打敗它?!?/p>
此外,對于機(jī)器閱卷是否會(huì)抹殺學(xué)生創(chuàng)造力的擔(dān)憂,吳曉如表示,閱卷中機(jī)器會(huì)把與眾不同的、富有創(chuàng)造力的試卷挑出來交給人工處理。還有,對于犯了低級錯(cuò)誤但有新思路導(dǎo)致測試成績不佳的考卷,也需要現(xiàn)場的測試員和專家來判斷。
吳曉如說,實(shí)際上,機(jī)器主觀題閱卷已經(jīng)過了很長一段時(shí)間的驗(yàn)證?!昂芏嘟逃龑<?、一線教師、校長一開始都對機(jī)器閱卷不認(rèn)同,但通過結(jié)果的現(xiàn)場對比,這些專家最后還是認(rèn)可機(jī)器要比人工測試的結(jié)果更好?!?/p>
探索作文自動(dòng)評分
而在國內(nèi)近年的主觀題的機(jī)器閱卷技術(shù)研究中,最令外界眼前一亮的是哈工大訊飛聯(lián)合實(shí)驗(yàn)室研發(fā)的語文作文評分技術(shù)。
要給作文評分就需要面對觀性相當(dāng)強(qiáng)的文本。那機(jī)器應(yīng)該從哪些維度去評判?又如何去量化這些維度?
研究人員介紹,就像在中、高考閱卷中,全國的教師以一套統(tǒng)一、嚴(yán)格的標(biāo)準(zhǔn)來進(jìn)行評分一樣,機(jī)器批閱作文,最重要的也是讓機(jī)器學(xué)到這套標(biāo)準(zhǔn),然后按標(biāo)準(zhǔn)批閱。
也就是,教師們先設(shè)置一套通用的從字跡工整度、詞匯豐富性、句子通順度、文采、篇章結(jié)構(gòu)、立意等多個(gè)層次綜合評估一篇作文質(zhì)量的解決方案。之后,機(jī)器就可以利用算法從少量人工評分的樣本中學(xué)習(xí)獲得作文評分標(biāo)準(zhǔn)。比如一次考試有2000份卷子,從第一份卷子開始,機(jī)器就可以學(xué)習(xí)教師的閱卷方法,學(xué)到200份的時(shí)候機(jī)器就可以代替人工,自動(dòng)對剩下的試卷進(jìn)行智能化打分。
作文評分系統(tǒng)中,詞匯豐富性和立意屬于內(nèi)容相關(guān)的特征;字跡工整度、局部連貫性、句法正確性和篇章結(jié)構(gòu)屬于表達(dá)相關(guān)的特征;文采屬于發(fā)展等級特征。另外,該技術(shù)還利用人工神經(jīng)網(wǎng)絡(luò)對作文的語義進(jìn)行深度表示,從而得以從宏觀上把握文章的立意。
而這每一項(xiàng)標(biāo)準(zhǔn)背后都需要復(fù)雜、精密的技術(shù)來支持。例如,判斷字跡工整度就需要用到手寫識別技術(shù),即自動(dòng)將圖片中的手寫體字轉(zhuǎn)寫為文本的同時(shí),給出識別概率,以此來表示工整度。再例如,判斷一篇作文是否離題,就先需要根據(jù)題目內(nèi)容提取關(guān)鍵詞,并根據(jù)主題進(jìn)行擴(kuò)展,同時(shí)提取作文中的關(guān)鍵詞,再計(jì)算作文的關(guān)鍵詞和題目的關(guān)鍵詞的相似度。另外,也可以在該次考試的大規(guī)模數(shù)據(jù)上訓(xùn)練主題模型,得到全局的主題分布,然后和待考察作文的主題分布對比。
參與國家“863計(jì)劃”(國家高技術(shù)研究發(fā)展計(jì)劃)的科大訊飛方面表示,隨著人工智能技術(shù)的發(fā)展,未來,除了開放式的作文,甚至政治、歷史、地理科目的問答題機(jī)器都可以自動(dòng)閱卷。
當(dāng)全自動(dòng)機(jī)器閱卷成為現(xiàn)實(shí)后,教師們將會(huì)有更多的時(shí)間和精力投入到對教學(xué)方法、教學(xué)手段等創(chuàng)造性工作的研究中,從而為學(xué)生帶來質(zhì)量更高、更全面的教育。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




