- +1
“互聯網檔案館”告急:互聯網時代的公共記憶終將消逝?
公元前323年,曾經睥睨天下的亞歷山大大帝猝然離世,他所建立的橫跨歐非亞三洲的大帝國旋即陷入繼業(yè)者的內部傾軋之中;為了收拾群龍無首的殘局,亞歷山大曾經的部將托勒密公元前305年在埃及地區(qū)宣布稱王,并決意在尼羅河三角洲附近以亞歷山大所命名的港口城市奠定統治根基,使其比肩雅典成為地中海世界最耀眼的學術中心。在舉朝不計成本的努力之下,亞歷山大圖書館建成,數十萬卷書籍和文獻得以留存和管理,歐亞非地區(qū)許多科學家、哲學家和文學家的主要著作被收集起來。然而,隨著托勒密王朝的日益衰敗,這座圖書館也卷入了戰(zhàn)火之中,屢次成為侵略和襲擊的目標,并最終在羅馬帝國皇帝狄奧多西一世要求禁止一切異端的敕令下被破壞殆盡。

亞歷山大圖書館
亞歷山大圖書館的毀滅,被視作是全球文化史上最為慘重的浩劫之一;在后世歐洲的文化想象中,它的消亡逐漸成為“失落知識圣殿”的象征。自文藝復興時期以來,這座曾經匯集古代世界智慧的中心成為歐陸思想家們想象與仰慕的對象,重建堪比亞歷山大圖書館的知識典藏的夢想自此展開,從未斷絕。隨著科學技術的發(fā)展和傳播介質的簡化,數字技術的問世讓人們第一次看到了希望的曙光;而1996年,在萬維網面對公眾開放不過三年以后,一位名叫布魯斯特·卡利(Brewster Kahle)的美國電腦工程師創(chuàng)立了非營利機構“互聯網檔案館(Internet Archive)”,以“普遍獲取一切知識”為使命收集全世界的信息并將其在網絡上進行永久保存,這一舉動得到了“亞歷山大圖書館得以復興”的贊嘆。
隨著這一雄心勃勃的項目走入它為普羅大眾服務的第三十個年頭,互聯網檔案館通過電子留檔的形式保存了浩如煙海的書籍、音頻、視頻、軟件程序、圖像、文獻和特色服務項目,已經成為了學術研究者、調查記者、檔案管理員和無數普通人必不可少的網絡工具。在互聯網技術被大型資本集團壟斷的現實下,這一平臺作為屈指可數的堅持奉行Web 1.0時代“以內容為中心的自由傳播”精神的平臺,依靠著全世界圖書館的捐贈、慈善機構的貢獻和無數志愿者的維護毅然挺立。盡管如此,伴隨著版權管理規(guī)則的收緊和生成式AI平臺對信息環(huán)境的沖擊,互聯網檔案館正在面臨著自創(chuàng)立以來最為嚴峻的威脅和挑戰(zhàn)。

2022年4月19日,在埃及亞歷山大拍攝的亞歷山大圖書館內景。新華社 圖
為了盡可能保存全世界公開可訪問網頁的歷史快照,互聯網檔案館會通過自動運行的爬蟲腳本訪問網頁,并將自己所閱覽的內容抓取并存入自己的數據庫中,在自己管理的“時光機(Wayback Machine)”網站上存放,供公眾閱覽和檢索。這一服務在方便普通人查詢的同時,網站上海量原始、免費的信息更被亟需海量公開可訪問資料來訓練大語言模型的 AI 企業(yè)視作取之不盡的聚寶盆。出于對AI大模型系統性利用互聯網檔案館的數據進行訓練從而損害自身盈利模式、危及輿論信息環(huán)境安全的擔憂,自2026年1月以來,《紐約時報》、《衛(wèi)報》、管理全美數百家本地報紙的《今日美國》集團陸續(xù)宣布將會通過robots.txt規(guī)則、訪問限制和其他技術手段阻攔互聯網檔案館的爬蟲抓取頁面,以避免其受版權保護的內容在未經允許的情況下成為AI模型的訓練資料。在此之前,網絡論壇平臺Reddit已經宣布,為了避免論壇數據成為AI模型的訓練資料,他們將會對互聯網檔案館的爬蟲加以封殺。
隨著這些限制的升級和發(fā)酵,三家網絡自由倡導組織與一百余名傳統和獨立媒體的記者編輯在四月初發(fā)起了一項聯名公開信簽署活動聲援互聯網檔案館,大力肯定其公共價值。在信中,署名者對互聯網檔案館的工作進行了毫不吝惜的贊揚,并表示這份記錄的保存關乎新聞業(yè)子孫后代的傳承,是確保這些信息對于公眾觸手可及最重要甚至是唯一的工具。在社交媒體上,公開信署名者之一的獨立記者大衛(wèi)·西羅塔(David Sirota)將互聯網檔案館譽為“純凈互聯網的永恒陽光”,將阻攔訪問的行為比作“將亞歷山大圖書館付之一炬”。另一位公開信的署名者,科技博客Techdirt的創(chuàng)始人麥克·馬斯尼克(Mike Masnick)也表示,為了避免數據被AI抓取而封鎖互聯網檔案館的信息訪問權,是“我們急于懲罰AI公司的過程中,對服務于所有人的公共資源的摧毀”。
如今五十多歲的西羅塔和馬斯尼克都是從年輕時就開始關注技術發(fā)展并使用互聯網進行內容創(chuàng)作的美國媒體人;他們的身份和經歷讓他們從這一技術誕生的時候開始,親身見證了互聯網時代的發(fā)展和興衰,也因此對封鎖互聯網檔案館訪問權會對公共知識傳承與歷史記憶權利造成何種影響,抱有格外強烈的警惕。該機構當前面臨的挑戰(zhàn),既體現了互聯網及其服務在歷史演進與解讀過程中的跌宕起伏,也折射出在這個充滿不確定性且資本權力野蠻擴張日益加劇的時代,信息自由和歷史記憶風雨飄搖的危險處境。
互聯網檔案館與記憶的政治性
師從“人工智能先驅”馬文·明斯基(Marvin Minsky),1982年畢業(yè)于麻省理工學院的卡利,在成為互聯網檔案館的創(chuàng)立者之前,曾是科技行業(yè)發(fā)展創(chuàng)新的佼佼者,開發(fā)了互聯網上首個發(fā)布和分布式搜索系統廣域信息服務器(WAIS)和網站信息數據分析平臺Alexa,在這兩項業(yè)務被收購之后身價千萬。盡管聲名顯赫且事業(yè)有成,他一直懷揣著成為圖書檔案管理員的夢想,這在一定程度上源于他讀到羅伯特·賓克利的故事——這位被譽為“數字人文界鼻祖”的歷史學家在1930年代將大量書籍制成微縮膠片并復制傳播,旨在向美國農村地區(qū)以更為便利的方式推廣知識。
自互聯網作為基礎設施投入運行以來,網頁缺乏可追溯性便一直成為了許多人最為頭疼的問題。無論是遭遇人為刪除還是服務器停運,曾經可訪問的信息都可能輕易變成一頁“404錯誤”頁面,且不留任何物理痕跡。根據皮尤研究中心的調查數據,從2013到2023年的十年間,在他們抽樣調查的540萬個網頁之中,有38%的網頁已經失效,而有25%的網頁已經徹底消失。依靠著互聯網檔案館的保護,這些已經消失的網頁的數量才由25%降低到10%。通過將網址信息置于它存在時的語境中以供不做評價的瀏覽,互聯網檔案館的作用不僅限于幫助用戶獲取內容信息本身,更成為保障信息真實性與完整性的重要結構性支撐。
隨著網頁存檔工作的成功,自1990年代末開始,卡利將互聯網檔案館業(yè)務范圍向各類不同的媒介擴展,致力于為尋求各類不同信息的人們提供綜合的查詢和閱覽服務。通過與全球各地的圖書館、檔案館、博物館、政府機構、歷史學會、文化遺產組織、各類機構、收藏家和協會合作,互聯網檔案館迄今為止已經存儲了約1萬億個網頁、5600萬本書籍和文本、1300萬個音頻文件、1500萬個視頻、530萬張圖片和130萬個軟件程序。當現實世界中的檔案保護工作在錯綜復雜的世界局勢中面臨日益嚴重的武裝沖突和資金短缺的威脅,互聯網檔案館已成為存儲這些無價信息最直接可及的渠道,有時甚至是其僅存的歸宿。
對于許多職業(yè)的核心工作而言,互聯網檔案館是一項不可或缺的公共工具。調查記者用它來去查詢過往的內容來核查信息和對權力問責;律師和檢察官用它來建立網站在特定時間所發(fā)布內容以作為法律證據;研究人員用它來查閱常規(guī)途徑難以甚至無法獲取的資料;檔案管理者用它來重建過去的規(guī)劃和城市生活來復原歷史發(fā)展的脈絡。在接受采訪時,來自不同行業(yè)的專業(yè)人士都異口同聲地指出,互聯網檔案館的服務至關重要,是他們的研究得以繼續(xù)的命脈。在缺乏資金、原始資料已消失、被修改、地理上無法獲取、絕版或技術過時的情況下,互聯網檔案館的服務至今無法被替代。
從這種角度上說,互聯網檔案館真正的作用并不只限于它所承載的信息和它為服務對象提供的便利,而在于它讓信息擁有了可以被記憶的途徑,從而為這些記憶提供了被賦予價值和意義的基礎條件。在媒介數字化的時代,記憶已經遠遠超越了大腦內部活動這種單純的個體生理行為,而是以技術為支撐、以公共參與為底色,將那些散落、易逝、易被篡改的數字痕跡,轉化為可被回溯、可被共享的集體記憶。荷蘭媒介研究學者何塞?范戴克(José van Dijck)在《數字時代的媒介化記憶》一書中指出,記憶和媒體都不是被動的載體,人類始終在通過各類媒介搭建敘事、分享記憶、構建公共認知空間;互聯網檔案館不僅加速了這一進程,更有效地拆除了記憶生產與傳播的壁壘 —— 它兼具檔案的留存功能與公共參與屬性,以中立開放的平臺收納多元信息、呈現原始痕跡,由此打破了由官方、精英單一主導的傳統記憶載體的敘事霸權。
對當今許多人而言,互聯網是一個由資本主義食物鏈頂端的幾家市值多到無法想象的巨頭企業(yè)所主導的,無處不在卻又有些令人生畏的存在。然而,回顧歷史,Web 1.0時代創(chuàng)建的服務本是旨在通過便捷的方式,讓信息共享與創(chuàng)作變得更加公平且普及的平臺。萬維網的發(fā)明者蒂姆·伯納斯-李(Tim Berners-Lee)曾回憶道,他創(chuàng)造萬維網的初衷是構建一個基于公共標準、去中心化的信息共享互動世界,而那個年代的互聯網從業(yè)者對持續(xù)互動、平臺壟斷和算法驅動的關注遠不如現在這般強烈。
加利福尼亞大學洛杉磯分校(UCLA)社會與遺傳學研究所教授克里斯托弗?凱爾蒂(Christopher Kelty)指出,互聯網的問題并不在于技術本身,而在于其背后的社會與政治構想:原本促成它成功的開放性,參與性,去中心化表達等曾被視為促進自由與平等的理念,在平臺資本主義壟斷的語境中借助舊有的政治特權所加以曲解異化,轉而服務于權力集中與經濟控制之中,最終使得它變成了如今這副數據被平臺收集與變現,信息和真相可以被隨意操縱,用戶從消費者變成被消費的內容的模樣。作為依舊以免費存儲和分享知識為宗旨的信息平臺,互聯網檔案館的存在宛若定格于Web 1.0時間中的活化石,在如今的社會生態(tài)環(huán)境中鳳毛麟角。
AI與版權:互聯網檔案館的危機時刻
互聯網檔案館之所以成為眾矢之的,恰恰因為它堅守著Web 1.0時代那種把知識盡可能開放、復制、共享的倫理;而今天主導互聯網的平臺和版權秩序則越來越把信息看成需要被圈定、管控和變現的資產。在他們的認知中,如果一家有影響力的實體的原則未能按照他們制定的游戲規(guī)則“與時俱進”,那么它就可能對自己對這些資產的持續(xù)壟斷的威脅,就會成為他們利用法律手段直接攻擊的目標。在21世紀初,多家提供音樂流媒體、電視廣播或軟件服務的在線平臺因版權糾紛被起訴至破產,徹底終結了Web 1.0時代之后,版權持有者開始逐漸將目光轉向了互聯網檔案館。
根據《美國法典》第17編第109(a)條規(guī)定的首次銷售原則,美國圖書館在分發(fā)范圍有限的情況下,依法有權分發(fā)其擁有的書籍實體副本,這被視為合理使用,從而使圖書館能夠履行其最基本的功能:出借書籍供人們閱讀。建立在為圖書館設置的合理使用的基礎上,互聯網檔案館為其藏書開發(fā)了一套受控的數字借閱系統,這些藏書通常來自其合作圖書館制作的復印件。該系統依托數字版權管理技術,防止受版權保護的作品被未經授權下載,且僅允許一名用戶通過候補名單同時借閱一本書進行閱覽。按照他們的主張,在受控數字借閱模式下,對這些實體藏書進行數字化并按“一本實體對應一份數字借閱”的方式出借應被理解為圖書館職能在數字時代的延伸。

當地時間2025年12月11日,加拿大,一部智能手機屏幕上顯示著互聯網檔案館的標志。視覺中國 圖
問題出現在2020年3月新冠疫情期間。當時各圖書館關閉,互聯網檔案館放寬了限制以鼓勵更多人訪問其存檔書籍,允許多名用戶同時借閱一本書,并為此推出了一項名為“國家緊急圖書館”的服務。幾個月后,由美國出版行業(yè)協會所支持的四家大型出版商對互聯網檔案館提起訴訟,認為“國家緊急圖書館”及其借閱服務違反了合理使用原則。他們主張,由于互聯網檔案館本身并不是書籍的持有者,因此無權在線以自身的名義出借數字副本。
盡管這起訴訟僅涉及 127 本與出版商版權相關的圖書,但是作為全世界最大的數字副本檔案,互聯網檔案館的管理者們深知這起訴訟的余波將遠遠不會是這幾本書那么簡單;在案件的口頭辯論開始不久以后,互聯網檔案館的高級政策顧問在新聞發(fā)布會上表示,這些出版商并未給出互聯網檔案館的借閱行為直接給他們的銷售產生經濟損害的有效證據。在訴訟過程中,美國東北大學一位經濟學家提交的專家評估報告指出,大多數圖書的主要銷售額產生于其商業(yè)生命周期的早期,而許多圖書的前五年銷售額就占其總銷售額的90%,但互聯網檔案館通常在圖書早已過了銷售高峰期后才進行數字化處理,因此該借閱計劃并未對出版商的圖書銷售造成實質性損害。
盡管如此,2023年3月,紐約南區(qū)地區(qū)法院裁定出版商勝訴;2024年9月,第二巡回上訴法院維持原判,認定互聯網檔案館的全書掃描及免費在線借閱行為不構成合理使用。三個月后,互聯網檔案館公開表示,他們將不會向最高法院申請復審,并同意在借閱系統中移除被出版集團點名的書籍,總數超過五十萬本。在訴訟塵埃落定以后,卡利曾在采訪中感嘆,相比于廣泛鼓勵數字化副本傳播,以公共教育為名義對電子借閱行為進行版權豁免的歐洲、印度和中國,美國的圖書管理體系已經不再像之前那樣領先世界。
除了書籍外,互聯網檔案館還收錄了數十萬份由收藏家和機構捐贈的舊式78轉唱片。由于這種錄音介質及其播放設備早已絕版,互聯網檔案館主張,對其進行數字化處理旨在為研究人員和后世保存歷史,這與該機構保存書籍的初衷如出一轍。盡管互聯網檔案館表示,從商業(yè)流媒體單次播放成本的角度來看,這些歌曲的播放次數產生的收益微不足道,但擁有部分錄音版權的多家唱片公司仍就歌曲數字化一事提起訴訟,索賠金額超過七億美元。盡管這起訴訟在未作出最終實體裁決的情況下達成了保密和解,但數千份唱片公司聲稱仍在市面上流通的數字化錄音也因此被永久下架,這些錄音在互聯網檔案館上已無法進行播放或下載,從而避免與官方流媒體服務形成競爭。
正在版權問題已成為對互聯網檔案館持續(xù)運營穩(wěn)定性的嚴重威脅的同時,AI公司廣泛利用互聯網檔案館的數據進行模型訓練的做法也引起了新聞和社交媒體平臺的擔憂,從而導致了他們在今年所作出的封鎖決定。當記者詢問他們?yōu)楹芜@樣做時,這些平臺的發(fā)言人不約而同地表示,他們并非專門針對互聯網檔案館,而是出于阻止未經授權的信息抓取行為,保障自身知識產權的普遍原則。
這些行為已然成為平臺與人工智能公司之間沖突這一更大趨勢的一部分:《紐約時報》集團以“通過隱藏爬蟲非法復制網站內容”為由起訴了OpenAI和Perplexity,并指控他們生成的內容與網站的原文不符,屬于“AI幻覺”;而一名法官在聽證后裁定,允許14家主要新聞出版商聯合起訴另一家人工智能初創(chuàng)公司Cohere,理由是該模型生成的內容“數量和質量上均與原內容相似”。在美國各地,來自各類出版商和創(chuàng)作者的一百多起訴訟指控AI公司大規(guī)模侵犯知識產權,并以此來對自己的模型進行數據訓練。盡管他們認為這種侵權并非蓄意為之,但他們相信,正是互聯網檔案館免費集中保存信息的機制成為了這種侵權行為的“后門”。
互聯網檔案館所發(fā)揮的關鍵作用贏得了多個領域的廣泛支持,從而催生了今年四月呼吁各大媒體平臺不要限制爬蟲的聯名信。在這些人看來,它的持續(xù)存在讓它早已超越了自己的功能本身,作為Web 1.0時代的絕唱,演變?yōu)樽杂砷_放的信息環(huán)境精神的象征;也正是因為如此,以西羅塔為代表的記者們才會發(fā)出警告,互聯網檔案館的消失將會讓奧威爾在《1984》中那句“誰控制了過去,誰就控制了未來”的預言一語成讖,從而讓對權力的有效問責變成一紙空文。
互聯網檔案館的未來會在何方
目前,隨著網頁保存工作的命運懸而未決,雙方都在努力尋求一個有效的折中方案。為了持續(xù)吸引公眾的關注度,互聯網檔案館的發(fā)言人在近期多次公開闡述其服務的意義,強調其作為非營利性服務機構繼續(xù)運營的必要性,并特別強調目前尚無其他非營利組織能以同等規(guī)模和速度進行信息保存。然而,新聞界并非所有人都對此舉印象積極,有人直言該組織是在有預謀地公開扮演受害者角色,通過否認自身的主體性來博取同情,卻不為它的服務所造成的現實問題提供有效的解決方案。
前《衛(wèi)報》科技主編查爾斯·亞瑟(Charles Arthur)在他的個人博客上指出,在與選擇直接起訴AI公司竊取知識產權不同,沒有一家新聞機構對互聯網檔案館發(fā)起過任何意義上的訴訟或者要求索賠。在AI模型所生產的“幻覺內容”仍然在持續(xù)對新聞媒體的營收和內容生態(tài)造成持續(xù)的威脅時,互聯網檔案館并沒有通過正式修改robots.txt的屏蔽規(guī)則,來徹底切斷AI公司使用互聯網檔案館的數據的渠道。當亞瑟詢問“時光機”主管馬克·格雷厄姆(Mark Graham)為什么不直接修改規(guī)則時,他并沒有收到任何回應。時至今日,無論互聯網檔案館的工作依然對無數人多么重要,但是它本身并沒有和這些新聞機構談條件的實際籌碼,只能依靠聯名公開信和社交媒體呼吁這類公關活動才能持續(xù)賺取關注度和獲得善意,卻對于自身存在對新聞機構產生的威脅充耳不聞。
就連互聯網檔案館自己也承認,自己的工作并非十全十美:在資源約束、反爬蟲攔截、登錄墻與付費墻阻隔、深網內容無法觸及,以及大量仍可訪問的網頁因發(fā)現不及時淪為 “瀕危網址” 的多重局限下,在網頁持續(xù)消亡、平臺限制不斷收緊以及內容生產機制發(fā)生變化的背景下,它所能保存的,不過是一個始終處于流失與補救之間的歷史切片。
如今的互聯網檔案館似乎走進了自己親手編織的一個“死結”當中:它在互聯網資本早已筑起高墻的年代,固執(zhí)地認為只要有足夠多的使用者和足夠積極的名譽,就可以度過一切困難和挑戰(zhàn)。誠然,它利用自己的公共價值和利益,成功地避免了自己因為侵犯書籍和音樂作品版權而可能帶來的滅頂之災;但在這場與新聞機構的政治中,他們并非唯一的受害者,他們也不應該將自己表現為毫無反抗能力的受害者,將話語權和決策權主動送給了已經面臨著多重爭議的AI集團們。
互聯網在它出現的三十余年中,硬件設施的進步讓它已經成為了無處不在而必不可少的基礎設施,從而幫助人們克服了技術上獲取網絡的困難,然而硅谷壟斷集團的崛起卻讓主流互聯網選擇了遵守過去的游戲規(guī)則,讓自由的分享變得越來越困難。記憶不是中性的,記憶是對過去的回溯和意義賦予,是選擇記住什么、遺忘什么的權力實踐,是抵抗歷史被篡改與未來被平庸化的最后堡壘。
在一個弱肉強食的時代,對于這種捍衛(wèi)自由分享和記憶權利的事業(yè)的同情本身雖然能引發(fā)情緒上的積極共鳴,卻不可能真正解決它迫在眉睫的問題。Web 1.0時代的理想終究未能兌現,但作為新時代的“亞歷山大圖書館”,互聯網檔案館必須采取更加決絕的決心與舉措去守護自己所保存的那些數據和信息,對AI依賴所產生的泛平庸化和惰性說“不”,才能夠不讓它和那些堅守事實真相,相信記錄歷史有價值的人們感到失望無助。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




