中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

支付寶“探一下”實測:以圖搜物不錯,視覺搜索要爆發(fā)了?

2024-12-31 09:45
來源:澎湃新聞·澎湃號·湃客
字號

日前,支付寶上線了全新AI視覺搜索產(chǎn)品“探一下”。用戶遇到感興趣的事物,就能夠讓AI通過攝像頭,“探一探”花草動物潮玩、做旅游的隨身講解、查詢商品藥品詳情等。

距離螞蟻集團正式提出AI戰(zhàn)略僅一年時間,AI對傳統(tǒng)應(yīng)用的覆蓋已如此全面而深入。就拿支付寶App來說,2024年以來,支付寶接連發(fā)布“支小寶”等AI獨立應(yīng)用以及智能體開發(fā)平臺,支付寶App當(dāng)中也集成了各種智能助理。支付寶此次的“探一下”則是聚焦視覺多模態(tài)賽道的一次嘗試,其體驗到底如何呢?

不是機械的畫面解讀,而是用戶的“隨身解說”

進入“探一下”主界面后的第一件事就是定格攝像頭獲得的畫面并開始生成分析結(jié)果,這一套操作差點讓小雷沒有反應(yīng)過來。但換個角度想想,“探一下”本身是集成在支付寶掃一掃當(dāng)中的擴展能力,并不是獨立的App,通過搜索進入可能不是最好的交互方式。

功能劃分上,“探一下”主要有“探知識”“探靈感”“探文字”“AR”四個選項,最后兩個其實是常規(guī)的文字識別和AR顯示,小雷認為前兩個功能才是“探一下”的核心能力所在。

(圖片來自雷科技攝制)

“探一下”和其它主流視覺識別型AI的工作原理相差無多,都是通過識別并分析攝像頭傳來的畫面,不同之處在于,“探一下”會在捕捉畫面主體后主動生成識別結(jié)果,還可以根據(jù)圖片特征關(guān)聯(lián)商品信息,像是結(jié)合了拍圖搜物的能力。后者則是需要用戶向發(fā)起提問,比如希望獲得畫面當(dāng)中的什么信息,AI才會分析,但可能由于沒有對應(yīng)的接口,一般不會生成具體的產(chǎn)品型號等信息。

和常規(guī)的視覺識別大模型APP不一樣,“探一下”在生成識別結(jié)果之后會進一步發(fā)散,識別的范圍很大,綠植、飲料、食物等都可以識別。比如小雷識別了眼前的腸粉之后,“探一下”會基于識別結(jié)果提供額外的生成選項,例如“腸粉的起源地”“腸粉與廣東早茶文化有何聯(lián)系”之類的。個人感受來說,如果當(dāng)下小雷遇到從未見過但又很好奇的事物,“探一下”的探知識能力的確會是一種相對有效的引導(dǎo)。

(圖片來自雷科技)

網(wǎng)傳“探一下”能夠準確識別各個版本的奧特曼,小雷用一個動漫手辦嘗試了一下,結(jié)果并沒有網(wǎng)傳的厲害,大概是數(shù)據(jù)庫沒有對應(yīng)的角色。

換作是菊花茶這種有明顯商品特征的識別結(jié)果,“探一下”會在探知識的選項當(dāng)中接入商品鏈接,這就是小雷前面提到的拍圖搜商品的能力,這在日常中可能會用得比較多。只不過目前“探一下”識別結(jié)果的準確性還有提升空間,就比如它會將小雷手上的華為nova 13 Pro識別成華為P50 Pro,猜測識別的準確性與數(shù)據(jù)庫、攝像頭畫面有一定的關(guān)聯(lián)。

(圖片來自雷科技)

小雷還發(fā)現(xiàn)“探一下”在識別上的一些細節(jié),當(dāng)系統(tǒng)直接框選或摳出重點物體時,識別結(jié)果和發(fā)散內(nèi)容可能會多一些(增加探商品、探實物等詞條),如果保留原始畫面,一定程度上說明識別結(jié)果不一定準確。

而“探靈感”則類似于看圖配文,提供“幽默”和“治愈”兩種文本生成風(fēng)格,前者會以漫畫對話氣泡展現(xiàn),有點像是物品的“內(nèi)心OS”之類的,看起來還算有趣,“治愈”就是正能量文本輸出,這些文本內(nèi)容都是基于AI對畫面內(nèi)容識別之后延伸出來的答案,把視覺識別與AI幫寫結(jié)合在了一起。

簡短體驗下來,小雷認為支付寶“探一下”更像是一種帶有玩樂和創(chuàng)意屬性的生成式AI輕應(yīng)用,它不會針對畫面內(nèi)容輸出具體的識別結(jié)果,而是簡化識別結(jié)果,并以科普、搜同款、AI創(chuàng)意文案這幾點為核心,可以把它看作是“隨身講解”。

(圖片來自雷科技)

但本質(zhì)上小雷認為“探一下”的出現(xiàn)還是支付寶對本土服務(wù)的整合,比如以圖搜商品之類的,再通過AI視覺識別和知識科普、文字靈感推薦這樣的親民玩法,帶動更多人使用AI功能,亦或是引導(dǎo)用戶養(yǎng)成一種全新的搜索習(xí)慣。

對戰(zhàn)理想同學(xué)、智譜:視覺識別能力強大

前面聊了關(guān)于支付寶“探一下”的體驗和玩法分析,為了弄清楚和常規(guī)的視覺模型App區(qū)別在哪里,小雷找來了理想同學(xué)、智譜兩款支持視覺識別的App進行簡單對比。

小雷前面有提到,支付寶“探一下”不需要用戶主動發(fā)文,也不會輸出攝像頭畫面的具體分析結(jié)果,而是跳過這一步驟,直接提供知識科普、AI個性化文案這樣的發(fā)散選項。作為對比,常規(guī)的視覺大模型App先是收集畫面內(nèi)容,再等待用戶提問,往往能夠得到十分具體的畫面解讀。另外,“探一下”不支持文字輸入,它就是單純的視覺識別。

都是畫面識別,“探一下”走的是一條不同于常規(guī)視覺大模型的道路,后者強調(diào)看到了什么內(nèi)容,前者強調(diào)的是物體背后的內(nèi)容(購物鏈接、歷史背景等)。面對同樣的現(xiàn)代風(fēng)格建筑畫面,理想同學(xué)和智譜的解答方向是一致的,智譜的解答更詳細,具體到畫面周邊的元素,以及建筑表面可能會被植被覆蓋這樣的細節(jié),甚至還會進一步猜測這張圖片所處的環(huán)境。

(圖片來自雷科技,圖一為“探一下”,圖二為理想同學(xué),圖三為智譜)

而“探一下”直接跳過了畫面分析這個步驟,直接擺出“石材的使用如何提升建筑物的視覺質(zhì)感”“玻璃幕墻在節(jié)能方面有哪些技術(shù)優(yōu)勢”等,來引導(dǎo)我們進一步了解。事實上,對于正在游覽景點的人而言,這種發(fā)散式的知識科普可能比游園內(nèi)的講解器還有用。

識別花花草草,支付寶的“探一下”還是有點實力,和理想同學(xué)、智譜的對比當(dāng)中,“探一下”和理想同學(xué)都能準確識別眼前的花卉的品種(千日紅),而智譜輸出成雞冠花。實際上千日紅和雞冠花兩個品種的顏色比較接近,只在造型上有明顯區(qū)分,更考驗AI對畫面內(nèi)容識別的準確性。

(圖片來自雷科技,圖一為“探一下”,圖二為理想同學(xué),圖三為智譜)

至于文字生成、圖片生成一類的,我們就沒有必要折騰支付寶的“探一下”了,它和理想同學(xué)、Kimi、豆包之類的大模型App并不在一條賽道上,并不具備查詢資料、寫作、畫圖之類的生產(chǎn)能力,本質(zhì)上還是一個更趣味的以圖搜索的輕量AI工具。

單論視覺識別的話,雖說視覺模型對具體產(chǎn)品的識別能力普遍比較弱,但支付寶“探一下”的識別水平至少不弱于主流,得益于背后有本土服務(wù)等數(shù)據(jù)資源,它的周邊搜索能力可能還比常規(guī)的視覺模型更強,比如識別到具體的飲料或藥物,適合什么時候、什么人群服用,“探一下”更集中于這些日常生活的服務(wù)。

AI視覺爆發(fā),“探一下”掀起視覺搜索大戰(zhàn)?

2023年,螞蟻戰(zhàn)略集團對外宣布了AI提速戰(zhàn)略,確定了“AI First”,正式將AI作為公司發(fā)展的核心戰(zhàn)略之一。如今,除了最近上線的“探一下”視覺AI產(chǎn)品外,支付寶今年也完成了AI智能助理的布局,出行、健康、政務(wù)等30多項場景服務(wù)當(dāng)中,都接入了AI大模型能力。

支付寶推出“探一下”AI視覺產(chǎn)品,本身不是為了和智譜、Kimi等主流大模型展開競爭,嚴格來說,支付寶和他們完全不在一條賽道上。在小雷看來,無論是智能助理還是“探一下”,又或者是“支小寶”等AI獨立應(yīng)用,幫助我們解決問題,

廠商狂卷AI大模型規(guī)模的“玩概念”時代已經(jīng)過去,如何讓AI落到實處,引導(dǎo)用戶使用AI能力,才是當(dāng)下行業(yè)普遍關(guān)注的重點。

官方表示,人類獲取的信息有超過80%來自視覺,以視覺為中心的人工智能產(chǎn)品,可以極大地降低人與AI交互的門檻。事實上,AI大模型供應(yīng)商也在加緊視覺模型的鋪開和開發(fā),Google Lens、理想同學(xué)、智譜等視覺模型,利用廣泛知識庫識別、理解視覺內(nèi)容,已經(jīng)成為一種新浪潮。

(圖片來自雷科技攝制)

再加上“探一下”這種本身帶有一定趣味性的視覺AI產(chǎn)品,主打普及知識和娛樂性,而不是常規(guī)AI大模型那種冰冷的文字輸出,一定程度上更容易讓普羅大眾接受,甚至是將其作為常用的內(nèi)容搜索方式。

另外考慮到當(dāng)前的功能豐富度,小雷并不認為“探一下”具備獨立出來的條件。

就目前來看,視覺作為“探一下”唯一的識別手段和生成依據(jù),準確度上還有待加強,畢竟它的任務(wù)就是做大家的“AI眼睛”,更需要完善背后的知識庫,錯誤的識別結(jié)果有時候也會誤導(dǎo)用戶,這是“探一下”當(dāng)前需要完善的地方。

25年1月7日,CES(國際消費電子展) 2025 即將盛大開幕,雷科技報道團蓄勢待發(fā),即將飛赴美國·拉斯維加斯現(xiàn)場全程報道,敬請關(guān)注。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司