搜索引擎每天處理著數(shù)以億計的查詢請求,每個查詢請求都代表了一個用戶對于某種資源的特定需求。多數(shù)時候,通過查詢返回的網(wǎng)頁結果,這些需求被滿足了,我們可以認為結果中的某些頁面對特定用戶的特定需求產(chǎn)生了價值。那么對于搜索引擎而言,頁面的價值是指什么,我們?yōu)槭裁匆芯宽撁鎯r值?帶著這些疑問我們一起來看下下面的文章:
首先,互聯(lián)網(wǎng)上的頁面是無窮盡的,而搜索引擎的硬件資源是有限的,想用有限的資源去覆蓋無窮盡的互聯(lián)網(wǎng),我們就需要對頁面價值做出判斷,不收錄那些無檢索價值的頁面,少收錄那些檢索價值低的頁面。這是頁面價值在收錄控制方面的應用。
二,搜索引擎spider的抓取能力是有限的,出于訪問友好性的考慮,對于一個網(wǎng)站或一個IP抓取速率需要有一個抓取速率的上限。在這一限制下,抓取或頁面更新就需要有一個先后順序,而這一排序的主要參考依據(jù)就是頁面價值,或者說對頁面價值的預測(未抓取時)。這是頁面價值在spider調(diào)度方面的應用。
三,對于某些頁面,頁面內(nèi)容發(fā)生變化,導致它的檢索價值從有到無,典型的就是變?yōu)椤八梨湣,或者“被黑”。對于這些頁面,好的搜索引擎會在一時間將其排除出索引,或在檢索時對其進行屏蔽,以保證返回給用戶的結果是更多檢索價值高的“好頁面”。對于另一些頁面,它不僅具有很高的檢索價值,而且有很強的“時效性”,能夠一時間讓用戶檢索到這些頁面對搜索體驗有很大的提升。對搜索引擎而言,越快的收錄和索引頁面意味著越多的額外資源開銷,以多快的速度收錄和以多短的周期更新索引,需要通過頁面價值的分析來指導。這兩方面是頁面價值在死鏈率和時效性兩大搜索引擎指標提升上的應用。
后,普遍意義上的頁面價值高低對搜索引擎返回給用戶的結果排序上也存在著指導意義。理想情況下搜索引擎的結果是按照與查詢請求的相關性進行排序的,在相關性大體相當?shù)那闆r下,用戶更傾向與瀏覽普遍意義上頁面價值高的網(wǎng)頁。這是頁面價值在ranking方面的應用。
可以說,頁面檢索價值的研究是搜索引擎中的一項較為基礎的工作,對頁面價值的認識和判斷的準確程度直接影響著搜索引擎的覆蓋率、死鏈率、時效性等幾大主要指標。
上面已經(jīng)介紹了頁面價值的含義,研究的意義與價值判斷的方法。后我們再看一下,從技術角度上,這一方向的研究中的方向。對頁面價值的研究工作主要致力于三方面:
對頁面價值體系的認識。我們目前對頁面價值的認識是來源于前文所述的四個維度,這個認識是否全,對于不斷變化的互聯(lián)網(wǎng)環(huán)境與用戶需求,這些維度應該如何擴展與變化才能更好的服務于整體的搜索體驗提升,是一個很重要問題。
對于反映頁面價值的頁面特征提取。巧婦難為無米之炊,挖掘更多的頁面特征,更準確合理的特征提取是頁面價值判定準確率提升的基礎。對各種頁面特征的組合策略(機器學習)。針對不用的應用方向,需要利用相應的特征通過合理的策略擬合出頁面價值的終評價結果。
魯公網(wǎng)安備 37090202000024號
魯ICP備09081715號-4 Copyright © 2009-2019 Feixun.cc All Rights Reserved 版權所有:泰安飛訊網(wǎng)絡科技有限公司