機(jī)器人已試點(diǎn)參與多次大規(guī)模考試，探索作文等開放式題目評分

澎湃新聞?dòng)浾?徐笛薇實(shí)習(xí)生李伶俐

2017-07-21 08:39

來源：澎湃新聞

? 教育家 >

在今年中考閱卷中，襄陽市引進(jìn)了智能化網(wǎng)上閱卷系統(tǒng)。視頻來源襄陽廣播電視臺(tái)網(wǎng)站(2:51)

對于各大考試來說，閱卷是相當(dāng)重要的一環(huán)，同時(shí)也耗時(shí)耗力。而隨著人工智能不斷升級，近年來機(jī)器人閱卷技術(shù)已日漸成熟。

近日，科大訊飛相關(guān)人士向澎湃新聞（www.nxos.com.cn）表示，在教育部考試中心的組織下，智能閱卷技術(shù)，已經(jīng)在全國多個(gè)省份的大規(guī)?？荚嚕ㄈ缰懈呖?、成人高考、學(xué)業(yè)水平測試等考試）中通過了多次多范圍試點(diǎn)驗(yàn)證。

在2017年湖北省的中考中，襄陽市率先引進(jìn)了智能評卷系統(tǒng)，該市教育考試院院長劉朝志對媒體表示，“相比人工閱卷，智能閱卷除了在閱卷速度上有優(yōu)勢外，還能彌補(bǔ)其在雷同卷、空白卷處理上的不足。”

大規(guī)?？荚囍幸堰M(jìn)行多次多范圍試點(diǎn)驗(yàn)證

2016年3月，教育部考試中心和科大訊飛成立了聯(lián)合實(shí)驗(yàn)室，共同開展人工智能技術(shù)在智能閱卷、命題、考試評價(jià)分析等方面的研究。

近日，科大訊飛方面告訴澎湃新聞，目前，在考試中心的組織下，科大訊飛的全學(xué)科智能閱卷技術(shù)已在學(xué)業(yè)水平測試，例如大學(xué)英語四六級，以及全國多個(gè)省份的高考、中考、成人高考等大規(guī)?？荚囍羞M(jìn)行了多次多范圍試點(diǎn)驗(yàn)證。

驗(yàn)證結(jié)果表明，計(jì)算機(jī)評分結(jié)果已經(jīng)達(dá)到了現(xiàn)場閱卷老師的水平，完全滿足大規(guī)?？荚嚨男枰?。

以往，進(jìn)行幾十萬、幾百萬份考試試卷樣本的分析需要耗費(fèi)巨大的人力資源，可行性很低，但如今通過精準(zhǔn)的圖文識別以及海量文本檢索技術(shù)，可以快速核對檢查所有試卷與目標(biāo)相似的文本，并迅速提取并標(biāo)注出可能存在問題的試卷。

據(jù)《襄陽晚報(bào)》報(bào)道，與往年中考閱卷不同的是，2017年湖北襄陽市中考閱卷在全省率先引進(jìn)了智能評卷系統(tǒng)。閱卷點(diǎn)一位技術(shù)人員說，智能評卷系統(tǒng)可進(jìn)行工作量分析，可列出每個(gè)評卷源評卷總量，監(jiān)控每個(gè)老師的評卷質(zhì)量。

襄陽市教育考試院院長劉朝志稱，有了智能閱卷大數(shù)據(jù)，每道題的得分情況，全市的平均點(diǎn)，哪塊知識學(xué)生掌握得好，哪一塊教育教學(xué)不到位，都可出一份教育教學(xué)診斷報(bào)告，更有利于老師教、學(xué)生學(xué)?！跋啾热斯ら喚?，智能閱卷除了在閱卷速度上有優(yōu)勢外，還能彌補(bǔ)其在雷同卷、空白卷處理上的不足?！?/p>

據(jù)襄陽市教育考試院中招科工作人員龔勛介紹，智能閱卷系統(tǒng)可覆蓋絕大多數(shù)的范文。運(yùn)用智能系統(tǒng)后，可在海量數(shù)據(jù)里面搜索，就能準(zhǔn)確判斷是否抄襲了范文。

7月19日，劉朝志向澎湃新聞表示，目前還需更多時(shí)間才能對外透露更多信息。

科大訊飛方面告訴澎湃新聞，智能閱卷采用了基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的圖文識別技術(shù)，已經(jīng)達(dá)到人眼識別中英文手寫字符相當(dāng)?shù)乃?。該?xiàng)技術(shù)應(yīng)用于正式考試中，可以輔助人工閱卷，減少人員投入，降低人工閱卷中疲勞、情緒等因素的影響，進(jìn)一步提升人工閱卷評分的效率、準(zhǔn)確性和公平性，從而對整個(gè)產(chǎn)業(yè)產(chǎn)生極大的變革。

此外，通過該項(xiàng)技術(shù)，將全部考生作答試卷都進(jìn)行電子化后生成的海量、準(zhǔn)確的分析數(shù)據(jù)也為之后教與學(xué)的研究提供了有力素材，并且提供了未來可被良好應(yīng)用的、與考試閱卷業(yè)務(wù)深度結(jié)合的突破點(diǎn)。比如，通過智能化的評分和批改加強(qiáng)與真實(shí)的課堂更好地結(jié)合。

“在做的大項(xiàng)目中有一些技術(shù)成果可以用于高考閱卷，但根本的目的是引入人工智能將閱卷推向3.0時(shí)代。”6月，科大訊飛輪值總裁吳曉如對澎湃新聞表示，“閱卷1.0時(shí)代是紙筆閱卷，2.0時(shí)代是在網(wǎng)上把人組織起來用機(jī)器自動(dòng)評閱一些客觀題，而在人工智能時(shí)代，已經(jīng)可以開始對主觀題進(jìn)行自動(dòng)評閱。”

機(jī)器批改主觀題早不再是空想

一般考試中通常包含客觀題和主觀題兩個(gè)部分。而在有了答題卡、掃描儀后，客觀題全部可以由機(jī)器批閱。不僅閱卷速度大大提升，而且更加準(zhǔn)確。

而自20世紀(jì)60年代以來，國外許多專家和學(xué)者就開始致力于主觀題的機(jī)器閱卷技術(shù)研究，出現(xiàn)了各種不同的自動(dòng)批改系統(tǒng)，例如美國的MBA、托?？荚囍芯蛻?yīng)用了E-rater系統(tǒng)。但這些系統(tǒng)大部分針對的都是第二語言作文，即非母語作文。但是，批閱學(xué)生用母語寫的作文需要在更高層次，比如作文的文采、篇章的銜接、作文立意等方面做出評判。

到了2015年11月，科大訊飛的機(jī)器智能閱卷技術(shù)在安慶、合肥等地成功試點(diǎn)應(yīng)用。經(jīng)過對人機(jī)評分結(jié)果的分析，計(jì)算機(jī)在評分一致率、平均分差、相關(guān)度以及與仲裁分更接近的比例等指標(biāo)方面都已達(dá)到或超過人工評分水平。這意味著，機(jī)器評閱主觀題已不再是空想。

那么，對于沒有客觀標(biāo)準(zhǔn)答案的主觀題，機(jī)器閱卷的原理和依據(jù)是什么？吳曉如解釋，機(jī)器閱卷和人工閱卷的本質(zhì)區(qū)別在于工作機(jī)理的差異。機(jī)器是通過統(tǒng)計(jì)、推理、判斷來決策，這與人的思維方式不同。在閱卷過程中，機(jī)器采用智能學(xué)習(xí)的方式。通常一組專家評閱約500到1000份試卷后，機(jī)器就能學(xué)習(xí)到這一種試卷的評閱模式并形成一個(gè)模型。這種模型對其他試卷就可以形成有效的處理和覆蓋，再根據(jù)該模型自動(dòng)評閱其他試卷。

而對于度量標(biāo)準(zhǔn)則是，先推選一組公認(rèn)閱卷水平較高的專家，把這一組專家對一組試卷給出的平均分作為一種相對標(biāo)準(zhǔn)。之后，把機(jī)器最后的測試結(jié)果、其他測試員測試的結(jié)果與專家的平均分比較。如果機(jī)器和專家給出平均分更接近、相關(guān)度更高，才認(rèn)為機(jī)器評閱的結(jié)果達(dá)到預(yù)期。

“只有一種簡單的或是標(biāo)準(zhǔn)化的測試模式實(shí)際上是非常容易作弊的，但從目前很多應(yīng)用的結(jié)果來看，還沒有一種辦法能夠很好地欺騙機(jī)器”，吳曉如說，“就像Alpha Go下圍棋一樣，并不是說找到一種客觀、標(biāo)準(zhǔn)的套路就可以打敗它?！?/p>

此外，對于機(jī)器閱卷是否會(huì)抹殺學(xué)生創(chuàng)造力的擔(dān)憂，吳曉如表示，閱卷中機(jī)器會(huì)把與眾不同的、富有創(chuàng)造力的試卷挑出來交給人工處理。還有，對于犯了低級錯(cuò)誤但有新思路導(dǎo)致測試成績不佳的考卷，也需要現(xiàn)場的測試員和專家來判斷。

吳曉如說，實(shí)際上，機(jī)器主觀題閱卷已經(jīng)過了很長一段時(shí)間的驗(yàn)證?！昂芏嘟逃龑＜?、一線教師、校長一開始都對機(jī)器閱卷不認(rèn)同，但通過結(jié)果的現(xiàn)場對比，這些專家最后還是認(rèn)可機(jī)器要比人工測試的結(jié)果更好?！?/p>

探索作文自動(dòng)評分

而在國內(nèi)近年的主觀題的機(jī)器閱卷技術(shù)研究中，最令外界眼前一亮的是哈工大訊飛聯(lián)合實(shí)驗(yàn)室研發(fā)的語文作文評分技術(shù)。

要給作文評分就需要面對觀性相當(dāng)強(qiáng)的文本。那機(jī)器應(yīng)該從哪些維度去評判？又如何去量化這些維度？

研究人員介紹，就像在中、高考閱卷中，全國的教師以一套統(tǒng)一、嚴(yán)格的標(biāo)準(zhǔn)來進(jìn)行評分一樣，機(jī)器批閱作文，最重要的也是讓機(jī)器學(xué)到這套標(biāo)準(zhǔn)，然后按標(biāo)準(zhǔn)批閱。

也就是，教師們先設(shè)置一套通用的從字跡工整度、詞匯豐富性、句子通順度、文采、篇章結(jié)構(gòu)、立意等多個(gè)層次綜合評估一篇作文質(zhì)量的解決方案。之后，機(jī)器就可以利用算法從少量人工評分的樣本中學(xué)習(xí)獲得作文評分標(biāo)準(zhǔn)。比如一次考試有2000份卷子，從第一份卷子開始，機(jī)器就可以學(xué)習(xí)教師的閱卷方法，學(xué)到200份的時(shí)候機(jī)器就可以代替人工，自動(dòng)對剩下的試卷進(jìn)行智能化打分。

作文評分系統(tǒng)中，詞匯豐富性和立意屬于內(nèi)容相關(guān)的特征；字跡工整度、局部連貫性、句法正確性和篇章結(jié)構(gòu)屬于表達(dá)相關(guān)的特征；文采屬于發(fā)展等級特征。另外，該技術(shù)還利用人工神經(jīng)網(wǎng)絡(luò)對作文的語義進(jìn)行深度表示，從而得以從宏觀上把握文章的立意。

而這每一項(xiàng)標(biāo)準(zhǔn)背后都需要復(fù)雜、精密的技術(shù)來支持。例如，判斷字跡工整度就需要用到手寫識別技術(shù)，即自動(dòng)將圖片中的手寫體字轉(zhuǎn)寫為文本的同時(shí)，給出識別概率，以此來表示工整度。再例如，判斷一篇作文是否離題，就先需要根據(jù)題目內(nèi)容提取關(guān)鍵詞，并根據(jù)主題進(jìn)行擴(kuò)展，同時(shí)提取作文中的關(guān)鍵詞，再計(jì)算作文的關(guān)鍵詞和題目的關(guān)鍵詞的相似度。另外，也可以在該次考試的大規(guī)模數(shù)據(jù)上訓(xùn)練主題模型，得到全局的主題分布，然后和待考察作文的主題分布對比。

參與國家“863計(jì)劃”（國家高技術(shù)研究發(fā)展計(jì)劃）的科大訊飛方面表示，隨著人工智能技術(shù)的發(fā)展，未來，除了開放式的作文，甚至政治、歷史、地理科目的問答題機(jī)器都可以自動(dòng)閱卷。

當(dāng)全自動(dòng)機(jī)器閱卷成為現(xiàn)實(shí)后，教師們將會(huì)有更多的時(shí)間和精力投入到對教學(xué)方法、教學(xué)手段等創(chuàng)造性工作的研究中，從而為學(xué)生帶來質(zhì)量更高、更全面的教育。

校對：張亮亮

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#閱卷機(jī)器人 #閱卷 #機(jī)器人 #作文 #主觀題