百度搜索于2017年7月4日首次發布颶風算法,聚焦惡劣采集行為的打擊;2018年9月13日升級至2.0版本,強化對低質內容的識別力度;2019年8月,颶風算法3.0正式上線,進一步擴展治理維度。該算法的核心目標在于清除內容生產領域的“搬運主義”與“流量投機”行為。具體而言,惡劣采集行為表現為內容未經授權搬運、機械拼接導致邏輯混亂、排版失序,頁面存在明顯采集痕跡,對用戶無實質增益價值;跨領域采集則指站點或小程序為追求流量曝光,發布與自身領域定位嚴重不符的內容,導致領域專注度下降,搜索系統將據此限制其展現機會;站群問題則通過批量構造低質站點、復用相似模板等方式獲取流量,此類站點內容同質化嚴重,資源稀缺性低下,難以滿足用戶真實需求。
2020年2月,百度搜索推出勁風算法,針對惡意構造聚合頁的行為進行專項治理。聚合頁本應是對特定主題下多源信息的有效整合,但惡劣聚合頁缺乏實質主體內容,僅為索引鏈接的機械堆砌,無法滿足用戶對深度信息的需求。此類問題主要包括四類典型場景:頁面內容與站點所屬領域不符或無專注領域,多為采集拼湊內容;頁面內容與標題及標簽標記的主題嚴重脫節;由網站搜索功能生成的靜態搜索結果頁,缺乏原創性整合;空短、無有效信息或已失效的聚合頁,完全浪費用戶搜索資源。
B2B領域作為商業信息交互的重要場景,其內容質量直接影響供需對接效率。2018年6月,百度搜索發布細雨算法,初步規范B2B行業站點行為;2019年11月,細雨算法2.0升級上線,重點治理惡劣違規問題與低質內容。該算法的治理范圍覆蓋頁面標題作弊(如堆砌關鍵詞、穿插特殊符號、冒充官網等)、正文內容中的違規受益信息(如變形聯系方式、配圖中嵌入聯系方式等)、惡劣違規內容(如采集拼接、發布軟文、空白頁面、商品信息與實際不符等)及低質內容(如圖文不符、圖片無有效信息等),通過多維度識別與處罰,保障B2B商業信息的真實性與有效性。
2016年11月,百度搜索推出藍天算法,持續打擊新聞類站點售賣軟文、目錄等破壞搜索公正性的行為。此類行為通過商業交易操縱搜索排名,導致優質內容被低質軟文或付費目錄淹沒,嚴重損害用戶對搜索結果的信任。藍天算法通過識別站點目錄交易行為,降低違規站點在搜索系統中的評價,維護搜索結果的客觀性與中立性,為用戶營造“信息藍天”。