網絡搜索引擎,網絡搜索引擎的工作原理
21 世紀是信息時代,隨著信息科學技術的不斷發展,網絡已成為人們生活中的重要組成部分,網上信息呈幾何級數增長,面對眾多繁雜無序的信息,如何能快速、準確、經濟地查找到所需要的信息,成為人們迫切需要解決的問題。
搜索引擎概述
搜索引擎是為滿足人們對網絡信息的搜索需求而新興的一種網絡工具,它利用網絡自動搜索功能,對各種信息資源分門別類地進行標引、建庫,并對信息進行理解、提取、組織和處理,從而起到信息導航的作用,幫助人們從不同形式的數字化信息中進行搜索。
搜索引擎起源于傳統的信息全文檢索理論。狹義上的搜索引擎僅指基于因特網的搜索引擎;廣義上的搜索引擎除此之外還包括基于目錄的信息檢索服務。搜索引擎的研究極具綜合性和挑戰性,它涉及到信息檢索、人工智能、計算機網絡、分布式處理、數據庫、數據挖掘、數字圖書館、自然語言處理等多領域的關鍵理論和技術,其核心問題是數據庫的規模、索引數據庫的質量和標引質量。
搜索引擎的工作原理及分類
搜索引擎由搜索器、索引器、檢索器和用戶接口四部分。它利用一個名為“蜘蛛”的機器人程序以一定的策略自動進行信息搜索,然后由索引器對信息進行理解、處理,從中抽取索引項,建立索引庫,再由檢索器根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,將要輸出的結果排序,并按用戶的查詢需求合理反饋信息,由用戶接口來接納用戶查詢,顯示查詢結果,提供個性化查詢項。按照信息搜集的方法和服務提供方式的不同,搜索引擎可以分為:
1. 全文搜索引擎
全文搜索引擎是從各個網站提取信息,建立數據庫,檢索與用戶查詢條件相匹配的記錄后,按照一定的排列順序返回結果,是名副其實的搜索引擎。全文搜索引擎的自動信息搜集功能分2 種:一種是定期搜索,即每隔一段時間,搜索引擎主動派出“蜘蛛”程序,對一定IP 地址范圍的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫;另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2 天到數月不等) 定向向你的網站派出“蜘蛛”程序。全文搜索引擎中最具代表性的有國外著名的Google 及國內的百度搜索。
2. 目錄索引
目錄索引是一種人工方式或半自動方式的搜索引擎,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。由于目錄索引只是一個按目錄分類的網站鏈接列表,因此不能稱為嚴格意義上的搜索引擎。由于目錄索引中加入了人的智能,所以導航質量高,信息更準確,但也正因為如此,使得維護費用偏大,信息更新不及時。目錄索引中最具代表性的為yahoo 、新浪。
3. 元搜索引擎
元搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果處理后,作為自己的結果返回給用戶。元搜索引擎返回結果的信息量更大、更全,但是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。元搜索引擎的代表是WebCrawler、info market 等。
搜索引擎的發展現狀及技術展望
目前,搜索引擎一般提供的是關鍵詞的全文檢索和分類瀏覽的查詢方式,檢索方式單一。分類目錄瀏覽常常檢索到很多無關的信息,查全率、查準率不高;關鍵詞檢索僅僅是機械的詞語匹配,缺乏知識處理能力和理解能力,信息檢索質量不高。此外,數據庫檢索功能和應用上的局限性、排序技術指標單一、分類目標體系缺乏規范、信息加工深度不夠,這些都嚴重影響著搜索引擎的發展。因此,必須增加檢索途徑,加強網絡信息資源的科學標引和組織,推動網絡資源標準化進程,積極推進搜索引擎的發展。
1. 精確搜索技術
采用基于自然語言理解技術的智能化搜索引擎,加深理解用戶搜索請求; 通過對用戶的不斷了解、分析,提供個性化搜索;利用XML 等技術使信息結構化,查詢結構化,提高檢索的速度和性能;針對某一行業,某一主題和某一地區的信息而建立專業化搜索,提高搜索的準確度。
2. 對等搜索技術
對等搜索P2P(Peer To Peer) 技術是以用戶為中心,通過P2P 共享硬盤上的文件、目錄甚至整個硬盤,將這一理念具體運用到搜索引擎技術上,使用戶無須通過Web 服務器,不受信息文檔格式和宿主設備的限制,進行深度搜索,網上信息的價值得到極大的提升。
3. 交叉語言檢索技術
交叉語言信息檢索是指用戶用母語提交查詢,搜索引擎在多種語言的數據庫中進行信息檢索,返回能夠回答用戶問題的所有語言的文檔。如果再加上機器翻譯,返回結果可以用母語顯示。該技術目前還處于初步研究階段,主要的困難在于語言之間在表達方式和語義對應上的不確定性。但對于經濟全球化、互聯網跨越國界的今天,無疑具有很重要的意義。
4. 移動代理技術
移動代理(Mobile Agent) 技術是一種新型分布式計算技術,是指網絡上具有移動功能的、能夠自主運行的,按照用戶的要求完成指定任務的程序。在移動代理模式下,客戶機向服務器提交的不再是一些簡單的請求,而是包含代碼和數據的移動對象,移動對象代表用戶,按照“程序靠近數據”的原則,在服務器間自主的移動,完成數據處理的任務。基于移動代理的模式之上的應用程序可以大大節省網絡寬帶,有效克服網絡延時帶來的種種問題,可以智能化地自主異步執行,它克服了搜索引擎傳統的“數據靠近程序”的運行模式,大大降低了網絡的數據流量,節省了網絡資源。
發展前景
隨著信息化社會的推進,搜索已成為網絡生活中組織和控制網絡信息資源的有效工具,利用搜索引擎加速信息流通及整和有用知識,提高信息利用率,已成為廣大用戶的共識。我們應更好的利用搜索引擎,實現信息服務的人性化、高效化,為用戶檢索信息提供更大的便利。
非常好我支持^.^
(208) 99.5%
不好我反對
(1) 0.5%
相關閱讀:
- [電子說] 西南交通大學攜手華為部署四川首例Wi-Fi 7,打造高品質萬兆校園網絡底座 2023-10-24
- [電子說] 深層云時代,重新思考業務轉型的網絡風險 2023-10-24
- [電子說] 三星電子進行12.7GHz—13.25GHz頻段的6G網絡測試 2023-10-24
- [移動通信] 5G網絡特性對車聯網應用發展的影響 2023-10-24
- [電子說] 諾基亞貝爾實驗室創造800 Gbps跨洋光傳輸新紀錄 2023-10-24
- [電子說] 網絡華佗 | 大明星出行記 2023-10-24
- [RF/無線] 5G-A時代的室內網絡建設解決方案 2023-10-24
- [電子說] 外貿專用網絡有哪些? 2023-10-24
( 發表人:admin )