爲了能夠對暗網數據進行索引.需要研發與常規爬蟲機制不同的系統.這類爬蟲被稱做暗網爬蟲。暗網爬蟲的目的是將暗網數據從數據庫中挖掘出來,並將其加入搜索引華的索引,這樣用戶在搜索時便可利用這些數據,增加信息段益程度。
目前大型搜索引索服務提供商都將暗網挖掘工作爲重要研究方向,因爲這直接關系到索引量的大小。在此領城的技術差異.將直接體現在搜索結果的全面性上,自然是竟爭對手之間的必爭之地.Google 目前將其作爲重點研發方向.而百度的“阿拉丁計劃”目的也在于此。
垂直網站提供的搜索界面.往往需要人工選擇或者填寫內容,比如機票搜索需要選擇出發地、到達地和日期.圖書搜索需要指出書名或者作者。而暗網爬蟲爲了能夠挖掘數據庫的記錄.
必須模擬人的行爲.填寫內容並提交表單。對于暗網爬蟲來說,其技術挑戰有兩點:壹是查詢組合太多,如果—壹組合遍曆,那麽會給被訪問網站造成太大壓力.所以如何精心組合查詢選項是個難點:第二點在于:有的查詢是文本框,比如圖書搜索中需要輸入書名,爬蟲怎樣才能夠填入合適的內容?這個也頗其挑戰性.