搜索引擎是指按照一定的策略,使用特定的計算機程序,從互聯網上收集信息,組織和處理信息,為用戶提供檢索服務,并將用戶檢索的相關信息顯示給用戶的系統。搜索引擎由搜索器、索引器、檢索器和用戶界面組成。
搜索者的功能是在互聯網上漫游,查找和收集信息。索引器的功能是了解搜索者搜索到的信息,從中提取索引項,并用它們表示文檔,生成文檔庫的索引表。搜索器的功能是根據用戶的查詢,快速地將索引數據庫中的文檔簽出,評估文檔和查詢的相關性,對要輸出的結果進行排序,并實現用戶相關性反饋機制。用戶界面的功能是輸入用戶查詢,顯示查詢結果,并提供用戶相關反饋機制。
搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、聚合搜索引擎、門戶搜索引擎和自由鏈接列表等。
全文搜索引擎是一個名副其實的搜索引擎。國外有代表性的有Google、fast/AlltheWeb、Altavista、inktomi、Teoma、wisenut等,國內出名的有百度、360搜索、搜狗等。它們都是從互聯網上的各個網站(主要是網頁文本)提取信息,檢索符合用戶查詢條件的相關記錄,然后按一定順序將結果返回給用戶而建立的數據庫,是真正的搜索引擎。
全文搜索引擎是從網站中提取信息,建立網絡數據庫的概念。搜索引擎有兩個自動信息收集功能:
一種是常規搜索,即每隔一段時間(比如谷歌一般是28天),搜索引擎就會主動發出“蜘蛛”程序,在一定的IP地址范圍內搜索互聯網網站。一旦找到一個新的網站,它將自動提取網站的信息和網址,加入自己的數據庫。
另一種是提交網站搜索,即網站所有者主動向搜索引擎提交網站地址。在一定時間內(從2天到幾個月),它會向您的網站發送一個“蜘蛛”程序,掃描您的網站,并將相關信息存儲在數據庫中供用戶查詢。
隨著搜索引擎索引規則的巨大變化,主動提交網站并不保證你的網站可以進入搜索引擎數據庫。的方法是獲得更多的外部鏈接,這樣搜索引擎就有更多的機會找到你,并自動包含你的網站。
當用戶按關鍵字搜索信息時,搜索引擎將在數據庫中進行搜索。如果他們找到一個符合用戶需求的網站,他們將使用一種特殊的算法——通常基于關鍵詞的匹配程度、位置、頻率和鏈接質量——來計算每個網頁的相關性和排名水平。然后,根據關聯度,將這些Web鏈接返回給用戶。這種引擎具有搜索率高的特點。
從搜索結果來源來看,全文搜索引擎可以分為兩類:
一種是擁有自己的搜索引擎(Indexer),俗稱“蜘蛛”程序或“機器人”程序,以及自建的web數據庫,搜索結果直接從自己的數據庫調用,如上述7個引擎。
另一種是從其他引擎租用數據庫,并以自己的格式排列搜索結果,如Lycos引擎。
目錄索引,又稱分類檢索,是互聯網上個提供www資源查詢的服務。它主要收集和整理互聯網資源,并根據搜索到的網頁內容,將其網址分配到相關分類主題目錄的不同層次,形成類似圖書館目錄的分類樹結構索引。目錄索引不需要輸入任何文本,只要根據網站提供的主題對目錄進行分類,通過層層點擊即可訪問。