網絡爬蟲技術
網絡爬蟲(Webcrawler),是一種按照一定的規(guī)則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛用于互聯(lián)網搜索引擎或其他類似網站,可以自動采集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲存三個部分。
傳統(tǒng)爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。
聚焦爬蟲的工作流程較為復雜,需要根據(jù)一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。
反爬蟲技術
因為搜索引擎的流行,網絡爬蟲已經成了很普及網絡技術,除了專門做搜索的Google,Yahoo,微軟,百度以外,幾乎每個大型門戶網站都有自己的搜索引擎,大大小小叫得出來名字得就幾十種,還有各種不知名的幾千幾萬種,對于一個內容型驅動的網站來說,受到網絡爬蟲的光顧是不可避免的。
一些智能的搜索引擎爬蟲的爬取頻率比較合理,對網站資源消耗比較少,但是很多糟糕的網絡爬蟲,對網頁爬取能力很差,經常并發(fā)幾十上百個請求循環(huán)重復抓取,這種爬蟲對中小型網站往往是毀滅性打擊,特別是一些缺乏爬蟲編寫經驗的程序員寫出來的爬蟲破壞力極強,造成的網站訪問壓力會非常大,會導致網站訪問速度緩慢,甚至無法訪問。
一般網站從三個方面反爬蟲:用戶請求的Headers,用戶行為,網站目錄和數(shù)據(jù)加載方式。前兩種比較容易遇到,大多數(shù)網站都從這些角度來反爬蟲。第三種一些應用ajax的網站會采用,這樣增大了爬取的難度。
-
網絡爬蟲
+關注
關注
1文章
52瀏覽量
8722 -
爬蟲
+關注
關注
0文章
82瀏覽量
7006
發(fā)布評論請先 登錄
相關推薦
評論