最近,我們經常能夠聽到“XX公司做違法爬蟲”被一鍋端,程序員坐牢。還有XX公司的爬蟲給12306網站帶來重壓等等新聞,在看熱鬧的同時,很多人都會提出疑問——爬蟲到底是啥?今天就徹底給您講明白。
按照定義“網絡爬蟲”就是按照一定的規則,自動地抓取互聯網信息的程序或者腳本,能夠把網站上的信息收集回來,并且能在網站之間游走。爬蟲還會模擬人的行為,這看看、那瞅瞅。
比如百度、谷歌等搜索引擎就是典型的“爬蟲”,當你搜索“科技富能量”這個關鍵詞時,搜索引擎就會到各個網站上把和這個關鍵詞有關的內容找來呈現在結果頁面。
搜索之后,我們自然會選擇想要的結果點擊進去,這樣“被爬”的網站增加了點擊量,搜索引擎也獲得流量,這屬于雙贏局面。
但并非所有網站都愿意“被爬”。比如12306,作為中國唯一的官方火車票預訂渠道,本身每天就有海量點擊,但火車票代訂、代刷軟件(比如攜程、360等),為了掙搶票費,也會使用爬蟲軟件,惡意爬12306.
最瘋狂的時候,就是年前那段時間,公開數據表示:最高峰時1天內頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。
令人討厭的不僅僅有搶票爬蟲,還有微博的“僵尸爬蟲”——僵尸粉
打開某流量明星的留言頁面你就會看到,海量的留言量中,除了幾個真粉的發言,剩下的都是“步調一致”的僵尸粉。為啥流量明星最愛爬蟲?因為他們可以告訴廠商——我有流量,我有海量粉絲,來找我做代言/拍戲吧!
某流量明星留言中,還帶著“文案”二字
當然,還有中性爬蟲——比價軟件。
按照正常購物流程,你會打開京東、淘寶甚至貝殼找房,查看同一商品然后進行價格對比,費時費力。
在比價網站上,你搜索一樣商品,這類聚合平臺就會自動把各個電商的商品都放在你面前供你選擇,基本各大購物網站都能囊括在內。這就是“爬蟲”的功勞。它們去各家電商軟件上,把商品的圖片和價格統統扒下來,然后在自己這里展示。
這種爬蟲方便了用戶卻“惡心”了電商,因為電商平臺會把最顯眼的位置留給交錢最多的賣家,你都爬走了,肯定按照最便宜的產品展示,如此一來,誰還看交過錢的商家呢?
但是電商平臺沒法像12306那樣設置驗證碼,而且爬蟲還會模擬用戶的操作行為,你能想象每打開一次商品就輸入一次驗證碼嗎?誰還愿意買東西呢?
但是電商平臺也不是吃素的,各種封禁爬蟲IP地址、故意耗費爬蟲程序資源等等方式也很常見,爬與被爬的攻防戰,一刻不停。
最重要的是,雖然《網絡安全法》沒有對爬蟲行為作出明確規定,但是其司法解釋寫道“未經授權爬取用戶手機通訊錄超過50條記錄;未經授權抓取用戶淘寶交易記錄超過500條;未經授權讀取用戶運營商網站通話記錄超過500條;未經授權讀取用戶公積金社保記錄的超過50000條的。”可以入刑。
技術本無善惡之分,就看爬與被爬的,到底是誰。
編輯:hfy
-
網絡爬蟲
+關注
關注
1文章
52瀏覽量
8722 -
爬蟲
+關注
關注
0文章
82瀏覽量
7006
發布評論請先 登錄
相關推薦
評論