據2月27日路透社研究所報告顯示,至2023年底,全球有十國近半(48%)主流新聞網站選擇阻止OpenAI爬蟲,另約四分之一(24%)如法炮制封鎖了谷歌人工智能爬蟲。
該研究團隊從德國、印度、西班牙、英國及美國共計十五家綜合性質網絡新聞來源的robots.txt文件著手分析,涵蓋包括《紐約時報》等傳統印刷媒體、電視廣播公司及數字原生媒體等多類形式。
分析結果顯示,至2023年底,超半數(57%)的傳統印刷媒體如《紐約時報》等已關閉OpenAI爬蟲,反之電視廣播以及數字原生媒體相應地分別為48%和31%。而對于谷歌人工智能爬蟲,32%的印刷媒體采取相同措施,電視廣播和數字原生媒體的比率分別為19%和17%。
近期康奈爾大學研究發現,部分新型人工智能模型僅僅依賴前代模型訓練,非依靠人類輸入數據,引發“模型崩潰”甚至退化,從而導致生成內容出現更多錯誤性和誤導性的訊息。
網站爬蟲具有多種用途,其中Google的Googlebot主要用于抓取發布商網站并納入搜索查找,OpenAI的GPTBot則負責全網搜集訓練數據以支持旗下的大規模語言模型ChatGPT等,此類AI工具產出的精準度與實時性受到很大保障,這也是新聞發布商頻頻發布此類內容的原因所在:大語言模型給予優質出版商內容的重視程度遠高于其他來源。
研究進一步揭示,全球北方(以北美、歐洲為主,涵蓋其他高收入地區)的新聞機構較全球南方(包含非洲、拉美,亞太地區以及發展中的亞洲國家)有較大偏向性地提出屏蔽人工智能爬蟲要求。以美國為例,高達79%的熱門在線新聞網站對OpenAI爬蟲設限,而在墨西哥與波蘭,這一比例僅為20%類似的情況出現在德國(有60%的新聞網站對谷歌爬蟲采取限制)與波蘭和西班牙僅占7%的對比之中。
令人矚目的是,幾乎所有封鎖谷歌爬蟲的網站同時也禁止了OpenAI(達到了夸張的97%)。盡管該研究并未給出具體的解釋,唯一可信的推測可能在于OpenAI爬蟲相較谷歌更早推出的緣故。
-
谷歌
+關注
關注
27文章
6195瀏覽量
106016 -
人工智能
+關注
關注
1796文章
47683瀏覽量
240301 -
OpenAI
+關注
關注
9文章
1140瀏覽量
6707
發布評論請先 登錄
相關推薦
評論