全球互聯網網站2016年數量超過10億。這浩如煙海的網站及站內內容,搜索引擎(百度、谷歌、360等)不可能完全抓取收錄在自己的數據庫中。搜索引擎只會爬行抓取部分網站,在這部分網站中進行排名工作。搜索引擎放出的探索新舊網站的小程序,就是搜索引擎蜘蛛。在百度叫做Baiduspider,在谷歌叫做Google bot。
蜘蛛爬行是網站排名的頭一步
可以說,蜘蛛是我們網站獲得在搜索引擎排名的頭一步。只有我們的網站被蜘蛛爬行,才有可能進行下一步的收錄、索引、排名一系列步驟。不被蜘蛛爬行,不被收錄的網站,是無法參與搜索引擎的排名的。
吸引蜘蛛爬行方法:外鏈
搜索引擎蜘蛛順著互聯網上的各種鏈接(錨文本鏈接、文本鏈接、URL超級鏈接),爬行在各種鏈接組成的互聯網網狀結構中,像自然界的蜘蛛爬行在網中。這也是蜘蛛名字的由來。
聰明的同學到這可能就清楚我們網站頭一個蜘蛛是怎么來的了:通過已經被百度抓取的網站上的鏈接,爬行到我們網站上。也就是說,我們網站首先需要給我們網站做一個蜘蛛爬行的入口路徑。
通常來說,擁有互聯網中樞地位的目錄型網站,是很好的外鏈發布入口。搜索引擎蜘蛛對于鏈接中樞的目錄型網站爬行的頻率很高,可以及時發現我們發布的鏈接。像百度自身的網址提交路徑,360網址提交,hao123,dmoz目錄等。
權重較高的網站、新浪等大型網站、行業相關論壇、行業相關博客、行業相關其他站點,只要搜索引擎蜘蛛爬行抓取,都是我們前期提交網站網址的好平臺,都會吸引蜘蛛到我們網站上來。
蜘蛛抓取策略:原創性
搜索引擎希望顯示給用戶不同的搜索結果,重復性內容影響用戶體驗,搜索引擎對原創性高的網站更青睞。蜘蛛爬行時也會進行數據比對,如果是新站,同時里面都是互聯網上早已有的老生常談,蜘蛛會認為這是一個低質站點,無需浪費太多時間在此類網站上。
蜘蛛抓取策略:更新頻率
搜索引擎蜘蛛每隔一段時間會訪問一次網站,如果兩次訪問時間中網站內容沒有變化,蜘蛛會推遲下次到訪的時間。良好的網站更新頻率,會不斷吸引蜘蛛訪問,從而使網站站內更多內容被搜索引擎抓取收錄。
相關熱搜詞:SE工作原理