- +1
萬物皆可Token,企業(yè)怎么辦?
作者:趙曉勤
2023年被稱為“大模型”元年。
“你們有幾個AIGC用例了?”已成為CIO/CTO 們見面打招呼的“問候”語了。
以至于在業(yè)務中沒有采用ChatGPT或者還沒有開始規(guī)劃“大模型”用例的企業(yè)都不好意思說自己還在搞數(shù)字化轉(zhuǎn)型。
但其中的問題也是層出不窮。在規(guī)劃、開發(fā)“大模型”與業(yè)務場景的結(jié)合時遇到的問題可說是“誰用誰知道”。
大模型:數(shù)據(jù)治理尚起步,場景落地有難度
盡管企業(yè)的CIO們正加大對大模型的研發(fā)與投入,但仍要承擔相當大的風險。某能源行業(yè)的CIO向至頂網(wǎng)記者表示:“大模型不同于其他的數(shù)字化轉(zhuǎn)型項目,有較為明確的投資、收益評價方式,實施路徑也較為明確。企業(yè)在研發(fā)大模型用例時,有一些關鍵環(huán)節(jié)還存在諸多挑戰(zhàn)。”
首先是模型選擇問題,市面上有上百種大模型可以選擇,大家的側(cè)重點不一樣,對于國有企業(yè)而言,會優(yōu)先考慮國內(nèi)開發(fā)的大模型,模型安全與數(shù)據(jù)安全是首要考慮的問題。
其次,訓練數(shù)據(jù)的質(zhì)量與行業(yè)的知識積累問題。能源行業(yè)產(chǎn)業(yè)鏈相對較長,數(shù)據(jù)治理剛剛起步,各個環(huán)節(jié)的數(shù)據(jù)收集、整理是一個復雜過程,數(shù)據(jù)的多樣性、異構(gòu)性的問題較為嚴重,不同數(shù)據(jù)設備、傳感器也會產(chǎn)生大量異常數(shù)據(jù),以及數(shù)據(jù)漂移、數(shù)據(jù)誤差導致的數(shù)據(jù)一致性問題仍然嚴重。行業(yè)知識積累的數(shù)據(jù)數(shù)量尚不充足與完備。
第三、大模型幻覺問題仍是一個嚴重風險。因此現(xiàn)階段開發(fā)的用例還只能在小范圍試點,尚不能形成規(guī)模效益。
同樣的問題也困擾著其他行業(yè)的CIO和實踐者。為此我們采訪到了新華三集團數(shù)字中國研究院常務副院長李飛為我們答疑解惑。

新華三集團數(shù)字中國研究院常務副院長李飛
大模型:不能只求“大”,更要追求“準”
李飛認為,企業(yè)在選擇“大模型”上應重點關注模型大小和復雜度、訓練數(shù)據(jù)量以及模型精度和穩(wěn)定性這幾個關鍵指標。
他指出:“模型大小和復雜度是重要的指標。它會直接影響到模型的訓練速度、內(nèi)存需求以及部署的難度。一般來說,模型越大,復雜度越高,模型的性能可能也會更好,但同時也需要更多的計算資源和時間來進行訓練和部署?!?/p>
訓練的數(shù)據(jù)規(guī)模是另一關鍵指標?!耙驗樗鼤绊懙侥P偷姆夯芰托阅堋H绻P陀柧毜臄?shù)據(jù)量足夠大,數(shù)據(jù)的質(zhì)量足夠好,那么模型就可以學習到更多的樣本特征和規(guī)律,從而獲得更好的性能,從而生成的內(nèi)容也更貼合實際,更準確?!?/p>
模型精度和穩(wěn)定性是企業(yè)關注的重要指標。這兩個指標將直接影響到預測效果和實際應用。一般來說,經(jīng)過充分訓練的大模型可以獲得更高的精度和更穩(wěn)定的性能,但同時也需要更多的計算資源和時間來進行訓練和驗證。
因此李飛認為企業(yè)在選擇和使用大模型時,需要根據(jù)具體的應用場景和需求來選擇合適的模型,并進行充分的訓練和驗證。
Token是概率,消除幻覺靠訓練和對齊
企業(yè)時常擔心大模型的“幻覺”。大模型幻覺,簡而言之就是大模型“一本正經(jīng)地胡說八道”。李飛解釋道:“大模型幻覺是模型生成的內(nèi)容與現(xiàn)實世界事實或用戶期望不一致的現(xiàn)象。其本質(zhì)原理是大模型并沒有像人一樣理解了問題和答案,而是基于概率的 token by token 的形式產(chǎn)生的回答。”
“此外,還存在隱私保護安全,大模型可能會在未得到用戶許可的情況下收集、使用或泄露個人信息;在價值觀對齊問題上,由于人類社會的價值觀多元化,如何確保AI的行為與設計者的期望一致是一個難題;在技術(shù)安全問題上,如模型遭受黑客攻擊、訓練數(shù)據(jù)受到污染或篡改;內(nèi)容安全方面:涉及生成的內(nèi)容(如文本、圖像)是否符合道德、法規(guī)以及其被惡意使用的風險。”
“數(shù)據(jù)質(zhì)量差是致使它產(chǎn)生幻覺的一大原因。其中也包括數(shù)據(jù)缺陷、數(shù)據(jù)中捕獲的事實知識利用率低等問題。除了數(shù)據(jù),訓練過程也會使大模型產(chǎn)生幻覺。主要是預訓練階段(大模型學習通用表示并獲取世界知識)、對齊階段(微調(diào)大模型使其更好地與人類偏好一致)兩個階段產(chǎn)生問題?!?/p>
避免大模型的幻覺應從算力、數(shù)據(jù)、新技術(shù)三個方面來解決。李飛認為:“參數(shù)量的增加,會讓大模型的能力提升,但目前大模型的參數(shù)量正以三四個月翻番的速度增長。因此,計算能力很快會跟不上模型的發(fā)展需求,因此對計算力的需求、高品質(zhì)網(wǎng)絡的需求與日俱增,需要加快算力、網(wǎng)絡品質(zhì)的提升,包括調(diào)度的提升?!?/p>
此外,優(yōu)質(zhì)訓練數(shù)據(jù)的增加,也會讓大模型的能力提升。隨著大模型發(fā)展走向深度,要訓練出滿足產(chǎn)業(yè)需求、精度極高的垂直行業(yè)模型,一定需要更多的行業(yè)專業(yè)知識,以及企業(yè)私域數(shù)據(jù)。
最后,要解決大模型幻覺問題,就需要發(fā)展新的顛覆性技術(shù),來突破結(jié)構(gòu)化信息、陳述性事實、長鏈條推理、深度語義理解等方面遇到的瓶頸。
針對內(nèi)容安全,可通過內(nèi)置安全限制提示詞和出入內(nèi)容過濾攔截功能,可對所有場景下大模型生成內(nèi)容進行安全性限制,為用戶信息和數(shù)據(jù)安全保駕護航。從信息安全的角度看,新華三百業(yè)靈犀(LinSeer)私域大模型具有行業(yè)專注、區(qū)域?qū)佟?shù)據(jù)專有、價值專享的特征,數(shù)據(jù)專有確保To B、To G數(shù)據(jù)專有不出域、可用不可見,幫助客戶以私有數(shù)據(jù)訓練訂制化的人工智能,建設最“放心”的私域大模型。
為了實現(xiàn)價值對齊,研發(fā)人員需要在模型層面讓人工智能理解、遵從人類的價值、偏好和倫理原則,盡可能地防止模型的有害輸出以及濫用行為,從而打造出兼具實用性與安全性的AI大模型。例如,人類反饋的強化學習(RLHF)要求人類訓練員對模型輸出內(nèi)容的適當性進行評估,并基于收集的人類反饋為強化學習構(gòu)建獎勵信號,以實現(xiàn)對模型性能的改進優(yōu)化。
多維度評價大模型,才能找到適合的大模型
企業(yè)要研發(fā)、訓練出能用、好用的大模型首先要有一個合理的評價體系。
以新華三的私域大模型百業(yè)靈犀(LinSeer)為例。李飛表示:“今年百業(yè)靈犀剛通過了中國信通院組織的大規(guī)模預訓練模型標準符合性驗證,模型開發(fā)模塊被評為4+,達到國內(nèi)先進水平?!?/p>
“此次評測在數(shù)據(jù)管理、模型訓練、模型管理、模型部署、開發(fā)流程一體化五個功能模塊展開了全方位、多維度測評?!比绱丝磥?,性能評測確實是對模型評估的重要方面之一,目的是為了確定模型的效率和資源消耗情況,以便優(yōu)化模型的性能。這類評測可以從多角度進行,會涉及訓練時間、推理時間、內(nèi)存占用等諸多方向,但其中以模型大小與復雜度、訓練數(shù)據(jù)量以及精度穩(wěn)定性等為關鍵指標。”
具體來說,大模型的大小以及復雜度會直接影響到訓練速度、內(nèi)存需求以及部署的難度。一般來說,模型越大復雜度越高,模型的性能可能也會更好,但同時也需要更多的計算資源和時間來進行訓練和部署;而訓練數(shù)據(jù)量則會直接影響到模型的泛化能力和性能,也可以理解為如果模型訓練的數(shù)據(jù)量足夠大,數(shù)據(jù)的質(zhì)量足夠好,模型就可以學習到更多的樣本特征和規(guī)律,從而獲得更好的性能,進而生成的內(nèi)容也更貼合實際,更準確。大模型的精度和穩(wěn)定性也是關鍵指標之一,因為直接影響到模型的預測效果和實際應用。一般來說,經(jīng)過充分訓練的大模型可以獲得更高的精度和更穩(wěn)定的性能。
因此評價大模型的能力,可以從算法模型能力、場景通用能力、安全能力和平臺能力這幾方面入手:算法模型能力是衡量一個模型本質(zhì)性能的重要標準,直接關系到能否完成預設任務以及完成的效果如何,可以說強大的算法模型能力是模型性能優(yōu)秀的基石。
而場景通用能力則是指模型對于各類場景問題的處理能力?!叭绻粋€模型只能在特定的任務或者領域內(nèi)表現(xiàn)優(yōu)秀,但在其他任務或者領域內(nèi)則表現(xiàn)很差,我們可以認為這個模型的通用能力較弱。衡量模型通用能力的方式是在多個不同任務或領域內(nèi)應用模型,觀察模型的表現(xiàn)如何?!崩铒w這樣表示。
此外,平臺能力主要是考察模型的效率、擴展性以及穩(wěn)定性。對于大模型來說,如何在保證性能的同時提高效率、可擴展性和穩(wěn)定性,一直是個重要問題,這個方向就可以側(cè)重考察大模型處理大數(shù)據(jù)的能力,模型的訓練和預測速度,以及在高并發(fā)情況下的穩(wěn)定性。對于模型的使用者來說,模型的安全性也是至關重要的,安全性的評估可以看到模型在面對惡意攻擊時的全面表現(xiàn)。
未來,大模型會走向何方?
如今,大模型在實際應用中遇到最多的問題是什么?無非是不斷增長的參數(shù)量、硬件資源需求以及持續(xù)激增的能耗壓力所帶來的行業(yè)落地困境。在行業(yè)應用中,大模型應用往往不是單一的物體檢測、語音識別、文字識別等場景,而是集合了多種場景的綜合體,在實際落地時需要結(jié)合具體場景做針對性的算法調(diào)整和應用處理,所以合適的落地工具選擇將有效規(guī)避大模型與應用場景的割裂,打通模型到業(yè)務場景需求的通道,實現(xiàn)應用場景的拓展和衍生,而未來,這一項則是引領大模型發(fā)展的重要所在。
對于大模型的未來,李飛認為:“我們其實還要關注模型大小的合理化,畢竟AI大模型的大小需要平衡算力和能耗的開支,應選擇適合行業(yè)特點以及業(yè)務特點的大模型進行私域部署?!?/p>
“而伴隨AIGC的持續(xù)火熱,通過區(qū)分AIGC業(yè)務應用場景勢必可加速推動人工智能產(chǎn)業(yè)的落地應用,大模型發(fā)展也將被大大助力。當然,越發(fā)被重視的內(nèi)容安全合規(guī),例如通過建立內(nèi)容輸入防護、模型本身防護以及內(nèi)容輸出防護為一體的內(nèi)容安全體系,以及高效的數(shù)據(jù)治理能力加強行業(yè)數(shù)據(jù)的沉淀等,也都將成為發(fā)展中不可或缺的核心內(nèi)容?!?/p>
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




