熱點聚集

在網絡如此發達的今天,同樣的信息會在很多媒體上發布,同樣的信息會被大多數媒體平臺報道。此外,小站站長和seo人員在網上孜孜不倦地收集,導致網上大量重復新聞。然而,當客戶搜索某個關鍵詞時,所有主要的搜索引擎都不想向客戶顯示相同的文本。從某種程度上來說,抓取這些重復的網頁是對各大搜索引擎資源的浪費,因為刪除了重復文本的網站也成為了各大搜索引擎面臨的一大難題。

[新聞營銷]網頁去重原理是什么?應該如何做?

在常見的主流搜索引擎架構中,網頁去重通常存在于蜘蛛爬行部分。在整個主要搜索引擎架構中實施“消除重復”步驟越早,就可以為后續解決方案系統節省越多的資源。各大搜索引擎通常會對已被抓取的重復頁面進行分類和求解,比如評估一個站點是否包含大量重復頁面,或者該站點是否完整收集了其他站點的文本等。,以便決定將來是對站點進行爬網還是直接阻止爬網。

[新聞營銷]網頁去重原理是什么?應該如何做?

重復數據消除通常在分詞之后和索引之前(或分詞之前)執行。各大搜索引擎會從頁面上已經分離的關鍵詞中提取一些有代表性的關鍵詞,然后計算這些關鍵詞的“指紋”。每個網頁都會有這樣的特征指紋。當新抓取的網頁的關鍵詞指紋與被索引的網頁的關鍵詞指紋重合時,新網頁可能被各大搜索引擎視為重復文本而放棄索引。

[新聞營銷]網頁去重原理是什么?應該如何做?

在實踐中,各大搜索引擎不僅使用分詞分隔的有意義的關鍵詞,還使用連續切割提取關鍵詞,計算指紋。連續切割法提取關鍵詞并進行指紋計算。連切是單個字向后移動的切,或者單個字向后移動的切。比如“百度開始打擊買賣鏈接”會被切割成“百度開放”、“度開始”、“開始打”、“開始打”、“打買”、“打買賣”、“交易鏈”、“賣鏈接”。然后從這些詞中提取一些關鍵詞進行指紋計算,參與是否重復文字。這只是各大搜索引擎識別重復網頁的基本算法,處理重復網頁的算法還有很多。

[新聞營銷]網頁去重原理是什么?應該如何做?

因為現在網絡上流行的偽原創工具大多無法欺騙各大搜索引擎,或者是看不懂正文,所以理論上普通的偽原創工具是無法得到各大搜索引擎的正常收錄和排名的。但百度并沒有直接拋棄所有重復頁面而不做索引,而是根據重復頁面所在網站的權重放寬索引標準,使得一些騙子有機會利用網站的高權重,從其他網站收集大量文本來獲取搜索流量。但自2012年6月以來,百度搜索多次升級算法,多次打擊收集重復新聞和垃圾頁面。因此,搜索引擎優化不應該從偽原創的角度來構建,而應該從對客戶有用的角度來構建。雖然后者的文本并不都是原創,但通常如果網站的權重沒有大問題,就會健康快速的發展。關于原創性的問題,這本書將在第12章詳細討論。

[新聞營銷]網頁去重原理是什么?應該如何做?

另外,不僅各大搜索引擎需要“復制頁面”,他們自己網站中的頁面也是如此。比如分類新聞、b2b平臺等ugc網站,如果不加限制,客戶發布的新聞難免會有大量的重復,不僅在seo上表現不好,還會降低網站的客戶體驗。比如基于“聚合”的索引頁、主題頁或目錄頁,是seo人員在設計流量產品時常見的,而“聚合”必須有核心詞,不經過過濾,海量核心詞展開的頁面可能會出現大量重復,導致產品效果不佳,甚至被各大搜索引擎縮小。

[新聞營銷]網頁去重原理是什么?應該如何做?

重復數據消除算法的一般原理通常如上所述。一些有趣的朋友可以了解i-match、帶狀皰疹、simhash和余弦去重復。各大搜索引擎在做“網頁消重”之前,必須先對網頁進行分析,文本周圍的“噪音”會對消重結果產生影響。做這部分業務時,只能操作文字部分,相對簡單很多,同時可以有效輔助生產高質量的“seo產品”。作為seo人員,只需要了解實現原理,產品中的具體應用需要技術人員去實現。此外,還涉及效率、資源需求等問題。同時,根據實際情況,“去重”也可以在很多環節進行(比如核心詞的分詞)。seo人員只要稍微了解一下原理就可以給技術人員建議幾個方向,這是非常好的(技術人員不是萬能的,有不熟悉不熟悉的行業,也需要別人在特定時刻提供思路)。如果seo人員能在這些方面與技術人員有深入的交流,技術人員也會對seo特別尊重,至少不會認為“seo人員只會寫改標題、鏈接、文案等‘無聊’的訴求”。

[新聞營銷]網頁去重原理是什么?應該如何做?

總結:在感謝了痞子瑞的好書之后,尼子在seo思維中發現了新的知識、復制和指紋原理。希望兄弟姐妹們能看完這本書,今天和大家分享一些。在未來的日子里,我會繼續和大家分享好的知識點。

上一篇:[新聞營銷]4個做法教你不使網站長期打不開

下一篇:[新聞營銷]如何正確理解“內文為王,外鏈為皇”


標題:[新聞營銷]網頁去重原理是什么?應該如何做?
地址:http://www.jiuhuana2.cn/xinwen/26071.html


免責聲明:文芳閣軟文營銷平臺所轉載內容均來自于網絡,不為其真實性負責,只為傳播網絡信息為目的,如有異議請及時聯系[email protected],本人將予以刪除。