幾星期前一個客户問小編,小編幫他開發的 worpdress 網站中有些鏈接中帶有 #(哈希值),而且都是指向一些評論樓層的,而不是指向某一頁。這樣的話內容重複,會不會對網站的排名造成影響呢?
小編看了下百度的 SEO 優化文檔,百度對於鏈接中的 #(哈希值) 是這樣解釋的:
1 、什麼是哈希值?
#(哈希值) 不是 http 請求,而是一個瀏覽器動作。通過 #,可以快速定位到網頁中的某個具體位置。例如 https://www.weixiaoduo.com/wpjiaocheng/201307110.html#comment-121,就會快速定位到 id="comment-121" 或這個位置。
2 、搜索引擎會不會抓取帶 #號 (哈希值) 的 URL
答案是一般不會。搜索引擎抓取頁面首先要遵循 http 協議,可是 #不是協議內的內容。而實際上也是這樣,我們沒有見過搜索引擎的搜索結果中,哪一條記錄可以快速定位到網頁內的某個位置的。因此,希望通過在網站內外添加帶 #的錨鏈接來讓搜索引擎第一次訪問時快速定位是不現實的。當然,搜索引擎蜘蛛為了模擬真實用户,在進入網站之後,會通過一些技術實現模擬鼠標點擊的效果,這個時候,頁面的錨鏈接還是起作用,但任何鏈接在搜索結果中時,都不會帶 #。
看了百度文檔的解釋後小編也就沒在意這件事,跟客户説了下這個沒多大關係,可以不用管。過了兩天客户又來問小編,説他自己用 robots.txt 屏蔽了全站的帶 #的鏈接後網站的收錄開始慢慢減少了,而且 site: 主域,發現百度快照提示 robots.txt 禁止抓取內容。小編看了下原來是 Disallow: /*#*這段代碼出了問題,因為 #在 robots.txt 中是屬於註釋標記,在其後面的內容都將被蜘蛛忽略,呢麼 Disallow: /*#*就變成了 Disallow: /*也就是禁止蜘蛛抓取站內所有內容了,趕緊叫客户修改了。過了一個多星期網站的收錄也恢復了。不過那些帶 #的鏈接依然被收錄了,目前未發現任何影響排名的徵兆。