中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

AI分不清虎和貓?像嬰兒那樣學(xué)習(xí),才能重塑AI視覺邏輯

2026-05-22 07:45
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

|這篇發(fā)表在《自然·機(jī)器智能》上的論文揭示了一個(gè)反直覺的發(fā)現(xiàn):教給AI嬰兒時(shí)期的學(xué)習(xí)方法,可能比單純增加數(shù)據(jù)量重要得多。

最近,德國奧斯納布呂克大學(xué)和柏林自由大學(xué)的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)在AI視覺學(xué)習(xí)方面有很意思的研究。

論文的標(biāo)題是“Adopting a human developmental visual diet yields robust, shape-based AI vision”

先說下論文的結(jié)論:

有悖于傳統(tǒng)通過增大數(shù)據(jù)量來進(jìn)行AI視覺模型訓(xùn)練的方法,團(tuán)隊(duì)認(rèn)為怎么學(xué)比學(xué)多少更重要。

研究發(fā)現(xiàn)通過引導(dǎo)訓(xùn)練過程而非單純增加數(shù)據(jù)量,AI視覺系統(tǒng)可以達(dá)到更高的效率和更好的表現(xiàn)。

如果讓AI像人類嬰兒一樣去學(xué)習(xí),先經(jīng)歷視覺模糊的階段,再逐漸變清晰,它反而能學(xué)得更好

——更依賴形狀判斷物體,更能抗圖像干擾,甚至在對抗攻擊下也表現(xiàn)出了更強(qiáng)的韌性。

在“看到”面前,AI和人的差異在哪里

研究人員先給出了一組診斷。

現(xiàn)在的計(jì)算機(jī)視覺模型,尤其是卷積神經(jīng)網(wǎng)絡(luò),絕大多數(shù)是在高精度的靜態(tài)圖像上訓(xùn)練出來的。

這就存在一個(gè)問題:模型學(xué)到的東西和人類不一樣。

人類識別一個(gè)物體,靠的是形狀,比如椅子的輪廓、貓的身形比例、車的整體結(jié)構(gòu)。

其中紋理、顏色、圖案變化一般不會影響你的判斷,即使給你家可愛的小貓染成粉色你仍然會認(rèn)為它是一只貓咪~

但AI不太一樣~

它在訓(xùn)練中需要依賴紋理特征,比如把貓的毛色換成斑馬的條紋,它可能就會判定為這是只斑馬。

論文中明確指出,AI視覺系統(tǒng)“嚴(yán)重依賴紋理特征而非形狀信息”,而且“對圖像失真缺乏穩(wěn)健性,極易受到對抗性攻擊,難以識別復(fù)雜背景中的簡單抽象形狀”。

還有一個(gè)根本性差異,就是訓(xùn)練方式~

AI從一開始就被放進(jìn)高分辨率的真實(shí)圖像里,直接面對成年人才能分清的視覺復(fù)雜度。

而人類的視覺成熟過程不同,是一個(gè)緩慢的過程,這個(gè)過程正好就是我們的人類的視覺學(xué)習(xí)優(yōu)勢。

人類視覺是如何發(fā)育的?

研究人員總結(jié)了多年心理物理學(xué)和神經(jīng)生理學(xué)的研究,將新生兒到成年人的視覺成熟曲線完整量化。

發(fā)現(xiàn)曲線有幾個(gè)關(guān)鍵維度:視覺敏銳度、對比敏感度和色彩感知。

新生兒的視力大約只有成年人的1/30,他們眼中的世界是一片模糊的明暗對比。

這種情況會持續(xù)數(shù)周到數(shù)月,隨后逐步提升。

但認(rèn)知科學(xué)的研究表明,這個(gè)看不清的階段剛好起到了關(guān)鍵的結(jié)構(gòu)性作用

少量的輸入使大腦先抓取形態(tài)輪廓這種全局信息,把更精細(xì)的紋理和色彩處理放在后期。

同時(shí)這個(gè)結(jié)論也跟嬰兒先天性白內(nèi)障術(shù)后恢復(fù)的臨床證據(jù)一樣:

——即使患者術(shù)后能看清,但他們?nèi)詴嬖谝欢螘r(shí)期的構(gòu)型識別困難,這也說明早期視覺輸入的受限并不是缺陷,而是發(fā)育過程中不可或缺的結(jié)構(gòu)條件。

研究團(tuán)隊(duì)從這個(gè)規(guī)律出發(fā),設(shè)計(jì)了一套訓(xùn)練框架,稱為“發(fā)育性視覺食譜”(Developmental Visual Diet, DVD),全程模擬人類視覺成熟的參數(shù)變化。

DVD的核心方法:階梯進(jìn)度的參數(shù)控制

為了讓AI模型跟人類嬰兒的視覺發(fā)育盡可能一致,研究者直接干預(yù)訓(xùn)練中每一階段的樣本呈現(xiàn)質(zhì)量,具體做法如下:

早期階段:輸入圖像被大幅過濾,拋棄色彩和紋理細(xì)節(jié),只保留最基礎(chǔ)的輪廓和形狀。同時(shí),通過高斯模糊和平滑,模擬新生兒低敏銳度的視覺內(nèi)核。

中期階段:逐步適度降低模糊度,恢復(fù)部分高對比度細(xì)節(jié),同時(shí)引入有限的色彩信息,模擬兒童在學(xué)步和學(xué)齡前階段的視覺基礎(chǔ)。

后期階段:完全恢復(fù)真實(shí)的紋理、分辨率與彩色輸入,模型最終與傳統(tǒng)訓(xùn)練方案在視覺信號的保真度上沒有本質(zhì)差異。

不同發(fā)育階段的時(shí)長也被精確控制:

早期視覺受限的持續(xù)時(shí)長根據(jù)人類新生兒時(shí)期的經(jīng)驗(yàn)數(shù)據(jù)來設(shè)定。

后期逐步過渡的數(shù)據(jù)是用一個(gè)參數(shù)化的曲線來描述從新生兒到25歲成年人的所有中間狀態(tài),以此來驅(qū)動模型訓(xùn)練。

讓每一步的視覺復(fù)雜度都處于當(dāng)時(shí)的生理限制之下。

實(shí)驗(yàn)結(jié)果:四方面的顯著提升

研究者評估了DVD模型在形狀識別、抗噪聲、對抗攻擊等多方面的表現(xiàn),測試結(jié)果相當(dāng)明確:

第一,AI的形狀偏好顯著提升。這也是整個(gè)實(shí)驗(yàn)最核心的改善,采用DVD方案訓(xùn)練的模型不再依賴物體表面的紋理特質(zhì)做判斷,而是優(yōu)先用幾何輪廓來識別事物。

論文還明確寫道,這是迄今為止最強(qiáng)的形狀信息依賴性。

第二,抽象形狀識別能力超過現(xiàn)有最優(yōu)水平。傳統(tǒng)模型難以應(yīng)對那些輪廓簡單但背景復(fù)雜或類內(nèi)差異大的抽象圖形,而DVD模型在這類任務(wù)中的表現(xiàn)出超越了當(dāng)前最優(yōu)水平。

第三,對圖像干擾的穩(wěn)健性顯著提高。各類圖像質(zhì)量下降、噪聲、光線變化或部分遮擋等場景中,DVD模型的識別準(zhǔn)確率均高于基線。這項(xiàng)性能覆蓋了所有被測試的穩(wěn)健性指標(biāo)。

第四,對抗性攻擊的抵抗能力更強(qiáng)。傳統(tǒng)模型在面臨對抗攻擊時(shí)極易被欺騙,而DVD模型的表現(xiàn)明顯更為穩(wěn)定。

研究的深層意義:指導(dǎo)“如何學(xué)”可能比“學(xué)多少”更值得關(guān)注

這項(xiàng)研究的結(jié)論可以看作對一個(gè)行業(yè)的假設(shè)性修正。

過去的主流趨勢一直是“越大越好”:

模型參數(shù)越多、訓(xùn)練數(shù)據(jù)越多,表現(xiàn)就越好。

但研究團(tuán)隊(duì)給出了一個(gè)不同的方向,引導(dǎo)學(xué)習(xí)過程本身,比單純堆數(shù)據(jù)更具價(jià)值。

也直白地點(diǎn)出了一個(gè)被參數(shù)掩蓋的事實(shí):

那就是訓(xùn)練策略的設(shè)計(jì)權(quán)重可能真的不低于單純規(guī)模的放大~

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司