這是用戶在 2025-7-1 20:28 為 https://36kr.com/p/3339983772678148 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

Nature 警告:AI「數據饑渴症」引爆學術宕機潮,90%知識庫瀕臨崩盤

新智元·2025 年 06 月 17 日 10:56
AI 爬蟲致學術網站癱瘓,數位蝗災威脅開放科研。

學術網站本是知識的寶庫,卻因 AI 爬蟲的瘋狂掠奪而陷入癱瘓。 從 DiscoverLife 到 BMJ,數百萬次異常訪問讓伺服器不堪重負,威脅著開放獲取的科研命脈。 這場「數位蝗災」究竟因何而起? 學術界又該如何應對?

假如一個平日里寧靜的圖書館,突然湧入一大群不速之客,他們不閱覽、不沉思,只是一味地瘋狂複印每一本書的每一頁。

這喧囂吵鬧的場面,怎能不打擾那些正埋首書海、專心閱讀的人們呢?

如今,學術網站正遭遇類似的「數字入侵」。

就在近日,Nature 發表文章詳細揭露了這些行為。

文章位址:https://www.nature.com/articles/d41586-025-01661-4

數位「蝗災」席捲學術界

DiscoverLife 是一個在線圖像庫,擁有近 300 萬張珍貴的物種照片,是很多生物學家的科研生命線。

然而,從今年2月開始,該網站每天都被數百萬次異常訪問淹沒,頁面載入緩慢,甚至徹底癱瘓。

當你試圖打開一張稀有昆蟲的圖片時,卻只能面對「伺服器繁忙」的提示。

罪魁禍首是誰?

不是駭客,也不是病毒,而是一群悄無聲息的 AI 爬蟲,正在瘋狂「啃食」數據,為生成式人工智慧「餵食」。

這些大量抓取數據的爬蟲,正困擾學術出版商與研究人員,尤其是運營期刊論文、資料庫和其他資源網站的人。

「現在的情況就像是西部大荒野,」PSI 公司的首席執行官 Andrew Pitts 說。 該公司為學術交流界提供經過驗證的全球 IP 位址庫,位於英國牛津。

「最大的問題是訪問量實在是太大了,給系統帶來了巨大的壓力。 這不僅耗費資金,還干擾了真正的使用者。」

那些運營受到影響的網站正在想方設法阻止這些爬蟲機器人,減少他們造成的干擾。

但這絕非易事。 特別是對資源有限的小機構來說。

「如果這些問題得不到解決,一些小型機構可能會徹底消失。」德國斯圖加特國家自然歷史博物館的動物學家 Michael Orr 表示。

爬蟲程式泛濫

互聯網爬蟲並非新生事物。

幾十年來,谷歌等搜尋引擎的爬蟲一直在掃描網頁,助力資訊檢索。

然而,生成式 AI 的崛起引發了「壞爬蟲」的洪流。

今年,位於倫敦的醫學期刊出版商 BMJ 發現,其網站上的爬蟲機器人流量已經超過了真實使用者的流量。

BMJ 的首席技術官 Ian Mulvany 表示,這些機器人激進的行為導致伺服器超載,正常客戶的服務也因此中斷。

不只 BMJ,Highwire Press(專攻學術出版的互聯網託管服務提供者)的服務交付總監 Jes Kainth 直言:「我們觀察到壞爬蟲的流量激增,這已成為嚴重的問題。」

開放獲取知識庫聯合會(COAR)在四月份的報告中指出,在其調查的 66 個成員中,超過 90%的成員表示曾遭遇 AI 爬蟲抓取內容。

其中大約三分之二的成員因此經歷了服務中斷。

COAR 執行主任 Kathleen Shearer 表示:「我們的知識庫是開放獲取的,所以某種程度上我們歡迎內容被再利用。 但有些爬蟲過於激進,正造成宕機等嚴重運營問題。」

為何盯上學術網站?

數據是新石油。

這句話在 AI 時代被演繹得淋漓盡致。

LLM、圖像生成器這些 AI 工具依賴海量高質量數據進行訓練,而學術網站(期刊論文、資料庫、開放知識庫)成了「金礦」。

因為這些網站內容權威、新鮮,且往往結構化良好。

正如網路服務提供者 Cloudflare 副總裁 Will Allen 所言:「如果你的內容新穎或相關度高,對構建 AI 聊天機器人的開發者來說就是無價之寶。」

這些爬蟲往往通過匿名 IP 位址行動,繞過付費牆,甚至無視網站設置的 robots.txt 檔(用於規範爬蟲行為)。

Wiley 出版社的高級副總裁 Josh Jarrett 表示,他們發現爬蟲試圖獲取訂閱內容。 4 月,Wiley 還發佈聲明,強調未經授權的非法爬取不可接受。

但精明的壞爬蟲非常擅長繞過付費牆。

危機下的掙扎

面對爬蟲洪流,學術網站在奮力自救。

但在許多情況下,限制機器人訪問而不影響正常使用者十分的困難。

一種常見的方法是集成一個檔,告知機器人哪些行為被允許或禁止。

但壞爬蟲往往無視規則。

另一種方法是全面封禁所有爬蟲類似的行為,但這種一刀切的行為又可能誤傷合法使用者。

Mulvany 解釋說,學者常通過代理伺服器訪問期刊(這意味著大量請求可能來自同一個 IP 位址),這種訪問方式很像是機器人行為。

「我們得找到一個平衡點,既要保護網站不被流量激增搞崩,又不能影響使用者正常訪問這些資源。」Mulvany 表示。

「這事真挺煩人的,得花不少精力來減少這些風險。」

這些網站也可以遮罩掉特定的爬蟲程式,但需要首先區分善意和惡意爬蟲。

Cloudflare 和 PSI 公司正努力識別壞爬蟲,但新型 AI 爬蟲層出不窮,難以完全遏制。

「我們急需國際上達成關於 AI 公平使用和尊重這類資源的協定。」Orr 表示。

「否則,長遠來看,這些工具將找不到可用的訓練資源。」

參考資料:

https://www.nature.com/articles/d41586-025-01661-4

https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

本文來自微信公眾號 “新智元”,作者:犀牛,36 氪經授權發佈。

+1
30

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
評論區
  • 關中麥客 er · 2025-06-17
    举报1 回復

    數據被爬取是無可避免的,還是 wikipedia 聰明,早早的就把自己的網站的全部內容打包好,供 AI 公司下載了就不用爬了

36氪
36氪

企服圈子

軟體選型經驗交流社區
36氪企服點評訂閱號
36氪企服點評服務號

企服軟體推薦

找軟體,先查用戶評分榜 查看
顧問1對1推薦軟體免費服務 體驗

下一篇

Claude 與人類共著論文,蘋果再遭打臉,實驗黑幕曝光蘋果論文遭 Claude 反擊,曝實驗漏洞及測試無解甩鍋模型。

2025-06-17

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业