萬物皆可Token，企業(yè)怎么辦？

2023-12-28 16:22

來源：澎湃新聞·澎湃號·湃客

聽全文

作者：趙曉勤

2023年被稱為“大模型”元年。

“你們有幾個AIGC用例了？”已成為CIO/CTO 們見面打招呼的“問候”語了。

以至于在業(yè)務中沒有采用ChatGPT或者還沒有開始規(guī)劃“大模型”用例的企業(yè)都不好意思說自己還在搞數(shù)字化轉(zhuǎn)型。

但其中的問題也是層出不窮。在規(guī)劃、開發(fā)“大模型”與業(yè)務場景的結(jié)合時遇到的問題可說是“誰用誰知道”。

大模型：數(shù)據(jù)治理尚起步，場景落地有難度

盡管企業(yè)的CIO們正加大對大模型的研發(fā)與投入，但仍要承擔相當大的風險。某能源行業(yè)的CIO向至頂網(wǎng)記者表示：“大模型不同于其他的數(shù)字化轉(zhuǎn)型項目，有較為明確的投資、收益評價方式，實施路徑也較為明確。企業(yè)在研發(fā)大模型用例時，有一些關鍵環(huán)節(jié)還存在諸多挑戰(zhàn)。”

首先是模型選擇問題，市面上有上百種大模型可以選擇，大家的側(cè)重點不一樣，對于國有企業(yè)而言，會優(yōu)先考慮國內(nèi)開發(fā)的大模型，模型安全與數(shù)據(jù)安全是首要考慮的問題。

其次，訓練數(shù)據(jù)的質(zhì)量與行業(yè)的知識積累問題。能源行業(yè)產(chǎn)業(yè)鏈相對較長，數(shù)據(jù)治理剛剛起步，各個環(huán)節(jié)的數(shù)據(jù)收集、整理是一個復雜過程，數(shù)據(jù)的多樣性、異構(gòu)性的問題較為嚴重，不同數(shù)據(jù)設備、傳感器也會產(chǎn)生大量異常數(shù)據(jù)，以及數(shù)據(jù)漂移、數(shù)據(jù)誤差導致的數(shù)據(jù)一致性問題仍然嚴重。行業(yè)知識積累的數(shù)據(jù)數(shù)量尚不充足與完備。

第三、大模型幻覺問題仍是一個嚴重風險。因此現(xiàn)階段開發(fā)的用例還只能在小范圍試點，尚不能形成規(guī)模效益。

同樣的問題也困擾著其他行業(yè)的CIO和實踐者。為此我們采訪到了新華三集團數(shù)字中國研究院常務副院長李飛為我們答疑解惑。

新華三集團數(shù)字中國研究院常務副院長李飛

大模型：不能只求“大”，更要追求“準”

李飛認為，企業(yè)在選擇“大模型”上應重點關注模型大小和復雜度、訓練數(shù)據(jù)量以及模型精度和穩(wěn)定性這幾個關鍵指標。

他指出：“模型大小和復雜度是重要的指標。它會直接影響到模型的訓練速度、內(nèi)存需求以及部署的難度。一般來說，模型越大，復雜度越高，模型的性能可能也會更好，但同時也需要更多的計算資源和時間來進行訓練和部署?！?/p>

訓練的數(shù)據(jù)規(guī)模是另一關鍵指標?！耙驗樗鼤绊懙侥Ｐ偷姆夯芰托阅堋Ｈ绻Ｐ陀柧毜臄?shù)據(jù)量足夠大，數(shù)據(jù)的質(zhì)量足夠好，那么模型就可以學習到更多的樣本特征和規(guī)律，從而獲得更好的性能，從而生成的內(nèi)容也更貼合實際，更準確?！?/p>

模型精度和穩(wěn)定性是企業(yè)關注的重要指標。這兩個指標將直接影響到預測效果和實際應用。一般來說，經(jīng)過充分訓練的大模型可以獲得更高的精度和更穩(wěn)定的性能，但同時也需要更多的計算資源和時間來進行訓練和驗證。

因此李飛認為企業(yè)在選擇和使用大模型時，需要根據(jù)具體的應用場景和需求來選擇合適的模型，并進行充分的訓練和驗證。

Token是概率，消除幻覺靠訓練和對齊

企業(yè)時常擔心大模型的“幻覺”。大模型幻覺，簡而言之就是大模型“一本正經(jīng)地胡說八道”。李飛解釋道：“大模型幻覺是模型生成的內(nèi)容與現(xiàn)實世界事實或用戶期望不一致的現(xiàn)象。其本質(zhì)原理是大模型并沒有像人一樣理解了問題和答案，而是基于概率的 token by token 的形式產(chǎn)生的回答。”

“此外，還存在隱私保護安全，大模型可能會在未得到用戶許可的情況下收集、使用或泄露個人信息；在價值觀對齊問題上，由于人類社會的價值觀多元化，如何確保AI的行為與設計者的期望一致是一個難題；在技術(shù)安全問題上，如模型遭受黑客攻擊、訓練數(shù)據(jù)受到污染或篡改；內(nèi)容安全方面：涉及生成的內(nèi)容（如文本、圖像）是否符合道德、法規(guī)以及其被惡意使用的風險。”

“數(shù)據(jù)質(zhì)量差是致使它產(chǎn)生幻覺的一大原因。其中也包括數(shù)據(jù)缺陷、數(shù)據(jù)中捕獲的事實知識利用率低等問題。除了數(shù)據(jù)，訓練過程也會使大模型產(chǎn)生幻覺。主要是預訓練階段（大模型學習通用表示并獲取世界知識）、對齊階段（微調(diào)大模型使其更好地與人類偏好一致）兩個階段產(chǎn)生問題?！?/p>

避免大模型的幻覺應從算力、數(shù)據(jù)、新技術(shù)三個方面來解決。李飛認為：“參數(shù)量的增加，會讓大模型的能力提升，但目前大模型的參數(shù)量正以三四個月翻番的速度增長。因此，計算能力很快會跟不上模型的發(fā)展需求，因此對計算力的需求、高品質(zhì)網(wǎng)絡的需求與日俱增，需要加快算力、網(wǎng)絡品質(zhì)的提升，包括調(diào)度的提升?！?/p>

此外，優(yōu)質(zhì)訓練數(shù)據(jù)的增加，也會讓大模型的能力提升。隨著大模型發(fā)展走向深度，要訓練出滿足產(chǎn)業(yè)需求、精度極高的垂直行業(yè)模型，一定需要更多的行業(yè)專業(yè)知識，以及企業(yè)私域數(shù)據(jù)。

最后，要解決大模型幻覺問題，就需要發(fā)展新的顛覆性技術(shù)，來突破結(jié)構(gòu)化信息、陳述性事實、長鏈條推理、深度語義理解等方面遇到的瓶頸。

針對內(nèi)容安全，可通過內(nèi)置安全限制提示詞和出入內(nèi)容過濾攔截功能，可對所有場景下大模型生成內(nèi)容進行安全性限制，為用戶信息和數(shù)據(jù)安全保駕護航。從信息安全的角度看，新華三百業(yè)靈犀（LinSeer）私域大模型具有行業(yè)專注、區(qū)域?qū)佟?shù)據(jù)專有、價值專享的特征，數(shù)據(jù)專有確保To B、To G數(shù)據(jù)專有不出域、可用不可見，幫助客戶以私有數(shù)據(jù)訓練訂制化的人工智能，建設最“放心”的私域大模型。

為了實現(xiàn)價值對齊，研發(fā)人員需要在模型層面讓人工智能理解、遵從人類的價值、偏好和倫理原則，盡可能地防止模型的有害輸出以及濫用行為，從而打造出兼具實用性與安全性的AI大模型。例如，人類反饋的強化學習（RLHF）要求人類訓練員對模型輸出內(nèi)容的適當性進行評估，并基于收集的人類反饋為強化學習構(gòu)建獎勵信號，以實現(xiàn)對模型性能的改進優(yōu)化。

多維度評價大模型，才能找到適合的大模型

企業(yè)要研發(fā)、訓練出能用、好用的大模型首先要有一個合理的評價體系。

以新華三的私域大模型百業(yè)靈犀（LinSeer）為例。李飛表示：“今年百業(yè)靈犀剛通過了中國信通院組織的大規(guī)模預訓練模型標準符合性驗證，模型開發(fā)模塊被評為4+，達到國內(nèi)先進水平?！?/p>

“此次評測在數(shù)據(jù)管理、模型訓練、模型管理、模型部署、開發(fā)流程一體化五個功能模塊展開了全方位、多維度測評?！比绱丝磥?，性能評測確實是對模型評估的重要方面之一，目的是為了確定模型的效率和資源消耗情況，以便優(yōu)化模型的性能。這類評測可以從多角度進行，會涉及訓練時間、推理時間、內(nèi)存占用等諸多方向，但其中以模型大小與復雜度、訓練數(shù)據(jù)量以及精度穩(wěn)定性等為關鍵指標。”

具體來說，大模型的大小以及復雜度會直接影響到訓練速度、內(nèi)存需求以及部署的難度。一般來說，模型越大復雜度越高，模型的性能可能也會更好，但同時也需要更多的計算資源和時間來進行訓練和部署；而訓練數(shù)據(jù)量則會直接影響到模型的泛化能力和性能，也可以理解為如果模型訓練的數(shù)據(jù)量足夠大，數(shù)據(jù)的質(zhì)量足夠好，模型就可以學習到更多的樣本特征和規(guī)律，從而獲得更好的性能，進而生成的內(nèi)容也更貼合實際，更準確。大模型的精度和穩(wěn)定性也是關鍵指標之一，因為直接影響到模型的預測效果和實際應用。一般來說，經(jīng)過充分訓練的大模型可以獲得更高的精度和更穩(wěn)定的性能。

因此評價大模型的能力，可以從算法模型能力、場景通用能力、安全能力和平臺能力這幾方面入手：算法模型能力是衡量一個模型本質(zhì)性能的重要標準，直接關系到能否完成預設任務以及完成的效果如何，可以說強大的算法模型能力是模型性能優(yōu)秀的基石。

而場景通用能力則是指模型對于各類場景問題的處理能力?！叭绻粋€模型只能在特定的任務或者領域內(nèi)表現(xiàn)優(yōu)秀，但在其他任務或者領域內(nèi)則表現(xiàn)很差，我們可以認為這個模型的通用能力較弱。衡量模型通用能力的方式是在多個不同任務或領域內(nèi)應用模型，觀察模型的表現(xiàn)如何?！崩铒w這樣表示。

此外，平臺能力主要是考察模型的效率、擴展性以及穩(wěn)定性。對于大模型來說，如何在保證性能的同時提高效率、可擴展性和穩(wěn)定性，一直是個重要問題，這個方向就可以側(cè)重考察大模型處理大數(shù)據(jù)的能力，模型的訓練和預測速度，以及在高并發(fā)情況下的穩(wěn)定性。對于模型的使用者來說，模型的安全性也是至關重要的，安全性的評估可以看到模型在面對惡意攻擊時的全面表現(xiàn)。

未來，大模型會走向何方？

如今，大模型在實際應用中遇到最多的問題是什么？無非是不斷增長的參數(shù)量、硬件資源需求以及持續(xù)激增的能耗壓力所帶來的行業(yè)落地困境。在行業(yè)應用中，大模型應用往往不是單一的物體檢測、語音識別、文字識別等場景，而是集合了多種場景的綜合體，在實際落地時需要結(jié)合具體場景做針對性的算法調(diào)整和應用處理，所以合適的落地工具選擇將有效規(guī)避大模型與應用場景的割裂，打通模型到業(yè)務場景需求的通道，實現(xiàn)應用場景的拓展和衍生，而未來，這一項則是引領大模型發(fā)展的重要所在。

對于大模型的未來，李飛認為：“我們其實還要關注模型大小的合理化，畢竟AI大模型的大小需要平衡算力和能耗的開支，應選擇適合行業(yè)特點以及業(yè)務特點的大模型進行私域部署?！?/p>

“而伴隨AIGC的持續(xù)火熱，通過區(qū)分AIGC業(yè)務應用場景勢必可加速推動人工智能產(chǎn)業(yè)的落地應用，大模型發(fā)展也將被大大助力。當然，越發(fā)被重視的內(nèi)容安全合規(guī)，例如通過建立內(nèi)容輸入防護、模型本身防護以及內(nèi)容輸出防護為一體的內(nèi)容安全體系，以及高效的數(shù)據(jù)治理能力加強行業(yè)數(shù)據(jù)的沉淀等，也都將成為發(fā)展中不可或缺的核心內(nèi)容?！?/p>

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Token