題記:本文源自百度搜索研發(fā)部,內(nèi)容極具參考價(jià)值,深入探討了搜索引擎領(lǐng)域的頁(yè)面價(jià)值評(píng)估體系,雖原文已不可尋,其核心觀點(diǎn)仍值得業(yè)界借鑒。
搜索引擎每日承載億萬(wàn)級(jí)查詢請(qǐng)求,每一請(qǐng)求背后均映射著用戶對(duì)特定資源的精準(zhǔn)需求。當(dāng)搜索結(jié)果中的網(wǎng)頁(yè)成功滿足此類需求時(shí),該頁(yè)面便對(duì)用戶產(chǎn)生了價(jià)值。于搜索引擎而言,頁(yè)面價(jià)值的核心體現(xiàn)為“檢索價(jià)值”——即頁(yè)面能否通過(guò)常規(guī)檢索路徑解決用戶信息需求。例如,小學(xué)生在社交平臺(tái)發(fā)布的日記,雖內(nèi)容簡(jiǎn)單,但對(duì)特定受眾(家長(zhǎng)、同學(xué)等)具備價(jià)值,其姓名成為檢索的關(guān)鍵標(biāo)識(shí);而若僅有無(wú)文字說(shuō)明的地圖,雖具瀏覽價(jià)值,卻因缺乏檢索途徑而檢索價(jià)值趨近于零。因此,頁(yè)面檢索價(jià)值的判定需滿足兩點(diǎn):其一,能否解決特定用戶需求;其二,能否通過(guò)常規(guī)搜索方式獲取。需強(qiáng)調(diào)的是,本文所探討的“頁(yè)面價(jià)值”特指“檢索價(jià)值”。
互聯(lián)網(wǎng)頁(yè)面總量近乎無(wú)窮,而搜索引擎的硬件資源卻相對(duì)有限,如何在有限資源下最大化覆蓋有價(jià)值頁(yè)面,成為頁(yè)面價(jià)值研究的首要?jiǎng)右颉ㄟ^(guò)精準(zhǔn)判斷檢索價(jià)值,規(guī)避無(wú)價(jià)值頁(yè)面的收錄,減少低價(jià)值頁(yè)面的資源消耗,這構(gòu)成了頁(yè)面價(jià)值在收錄控制層面的核心應(yīng)用。Spider的抓取能力亦受限于訪問(wèn)友好性,需為每個(gè)站點(diǎn)或IP設(shè)定抓取速率上限。在此約束下,抓取優(yōu)先級(jí)便需依據(jù)頁(yè)面價(jià)值進(jìn)行排序,即對(duì)未抓取頁(yè)面的價(jià)值進(jìn)行預(yù)測(cè),這體現(xiàn)了頁(yè)面價(jià)值在spider調(diào)度層面的應(yīng)用。頁(yè)面內(nèi)容動(dòng)態(tài)變化可能導(dǎo)致檢索價(jià)值喪失(如死鏈、被黑頁(yè)面),搜索引擎需及時(shí)移除此類頁(yè)面以保障結(jié)果質(zhì)量;反之,部分高價(jià)值頁(yè)面具備強(qiáng)時(shí)效性,需快速收錄以提升用戶體驗(yàn)。這兩方面共同構(gòu)成了頁(yè)面價(jià)值在優(yōu)化死鏈率、時(shí)效性等關(guān)鍵指標(biāo)層面的應(yīng)用。在結(jié)果排序中,當(dāng)頁(yè)面相關(guān)性相近時(shí),普遍意義上的價(jià)值高低成為重要參考,這凸顯了頁(yè)面價(jià)值在ranking層面的指導(dǎo)意義。可以說(shuō),頁(yè)面檢索價(jià)值的研究是搜索引擎的基礎(chǔ)性工作,其判斷準(zhǔn)確度直接影響覆蓋率、死鏈率、時(shí)效性等核心指標(biāo)。
頁(yè)面價(jià)值的判斷需綜合多維度要素。受眾規(guī)模是首要維度,直接反映用戶檢索需求的廣度,需綜合考量信息發(fā)布源的用戶忠實(shí)度、資源在站點(diǎn)內(nèi)的分布規(guī)律(如首頁(yè)推薦內(nèi)容的“大眾口味”標(biāo)識(shí))、訪問(wèn)熱門度、超鏈數(shù)量及內(nèi)容本身的公眾屬性(如“郭德綱上春晚”相較于“吃早飯”的博客受眾更廣)。稀缺性描述頁(yè)面的獨(dú)特性,需避免簡(jiǎn)單等同于“無(wú)重復(fù)”——原創(chuàng)內(nèi)容被權(quán)威平臺(tái)轉(zhuǎn)載時(shí),若帶來(lái)站點(diǎn)增益(速度、穩(wěn)定性提升)、內(nèi)容增益(標(biāo)題優(yōu)化、新增評(píng)論等),仍具備高稀缺度;反之,無(wú)增益的重復(fù)內(nèi)容則稀缺度趨近于零。頁(yè)面質(zhì)量是其滿足用戶需求程度的直接體現(xiàn),需從基礎(chǔ)需求(非死鏈、穩(wěn)定、快速)到進(jìn)階需求(內(nèi)容完整、易讀、廣告適度),再到高級(jí)需求(信息豐富、滿足次級(jí)需求)遞進(jìn)評(píng)估,典型低質(zhì)量特征包括主需求無(wú)效、虛假信息、權(quán)限障礙等,高質(zhì)量特征則表現(xiàn)為訪問(wèn)速度快、頁(yè)面整潔、元素豐富。時(shí)效性作為特殊屬性,聚焦突發(fā)性價(jià)值——如公眾事件引發(fā)的超鏈爆發(fā)與頁(yè)面激增,需通過(guò)分析受眾突增、同類頁(yè)面數(shù)量變化及特定集合(如熱門貼吧)的潛在時(shí)效性,優(yōu)先將資源投向高時(shí)效性頁(yè)面。
頁(yè)面價(jià)值研究的技術(shù)重點(diǎn)在于:持續(xù)深化價(jià)值體系認(rèn)知,探索四維框架(受眾、稀缺、質(zhì)量、時(shí)效性)如何適應(yīng)互聯(lián)網(wǎng)動(dòng)態(tài)變化;提升頁(yè)面特征提取能力,挖掘用戶行為、內(nèi)容結(jié)構(gòu)等更多反映價(jià)值的特征;優(yōu)化特征組合策略,通過(guò)機(jī)器學(xué)習(xí)針對(duì)不同應(yīng)用場(chǎng)景(收錄、抓取、排序)擬合綜合評(píng)價(jià)模型,實(shí)現(xiàn)資源最優(yōu)配置。