幾星期前一個客戶問小編,小編幫他開發的 worpdress 網站中有些連結中帶有 #(雜湊值),而且都是指向一些評論樓層的,而不是指向某一頁。這樣的話內容重複,會不會對網站的排名造成影響呢?
小編看了下百度的 SEO 最佳化檔案,百度對於連結中的 #(雜湊值) 是這樣解釋的:
1 、什麼是雜湊值?
#(雜湊值) 不是 http 請求,而是一個瀏覽器動作。透過 #,可以快速定位到網頁中的某個具體位置。例如 https://www.weixiaoduo.com/wpjiaocheng/201307110.html#comment-121,就會快速定位到 id="comment-121" 或這個位置。
2 、搜尋引擎會不會抓取帶 #號 (雜湊值) 的 URL
答案是一般不會。搜尋引擎抓取頁面首先要遵循 http 協議,可是 #不是協議內的內容。而實際上也是這樣,我們沒有見過搜尋引擎的搜尋結果中,哪一條記錄可以快速定位到網頁內的某個位置的。因此,希望透過在網站內外新增帶 #的錨連結來讓搜尋引擎第一次訪問時快速定位是不現實的。當然,搜尋引擎蜘蛛為了模擬真實使用者,在進入網站之後,會透過一些技術實現模擬滑鼠點選的效果,這個時候,頁面的錨連結還是起作用,但任何連結在搜尋結果中時,都不會帶 #。
看了百度檔案的解釋後小編也就沒在意這件事,跟客戶說了下這個沒多大關係,可以不用管。過了兩天客戶又來問小編,說他自己用 robots.txt 遮蔽了全站的帶 #的連結後網站的收錄開始慢慢減少了,而且 site: 主域,發現百度快照提示 robots.txt 禁止抓取內容。小編看了下原來是 Disallow: /*#*這段程式碼出了問題,因為 #在 robots.txt 中是屬於註釋標記,在其後面的內容都將被蜘蛛忽略,呢麼 Disallow: /*#*就變成了 Disallow: /*也就是禁止蜘蛛抓取站內所有內容了,趕緊叫客戶修改了。過了一個多星期網站的收錄也恢復了。不過那些帶 #的連結依然被收錄了,目前未發現任何影響排名的徵兆。