在網(wǎng)絡(luò)營銷中,經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引之后,搜索引擎就準(zhǔn)備好可以隨時處理用戶搜索了。當(dāng)用戶在搜索框中輸入網(wǎng)站推廣關(guān)鍵詞后,排名程序?qū)⒄{(diào)用索引數(shù)據(jù)庫,計算排名顯示給用戶,因此排名過程與用戶是直接互動的關(guān)系,你要什么我就給你什么。其實排名也是一套比較復(fù)雜的算法,基本分為六個步驟。
一、文件匹配
關(guān)鍵詞經(jīng)過處理后,搜索引擎得到的是以詞為基礎(chǔ)的網(wǎng)絡(luò)營銷關(guān)鍵詞集合。文件匹配階段就是找出含有所有關(guān)鍵詞的文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成,假設(shè)用戶搜索“關(guān)鍵詞A 關(guān)鍵詞B”,排名程序只要在倒排索引中找到“關(guān)鍵詞A”和“關(guān)鍵詞B”這兩個詞,就能找到分別含有這兩個詞的所有頁面。經(jīng)過簡單計算就能找出既包含“關(guān)鍵詞A”,又包含“關(guān)鍵詞B”的所有頁面。比如:“關(guān)鍵詞A”中有文件1、文件3、文件6,“關(guān)鍵詞B”中有文件2、文件4、文件6,那么既包含“關(guān)鍵詞A”又包含“關(guān)鍵詞B”的頁面就是文件6。
二、搜索詞處理
當(dāng)網(wǎng)絡(luò)營銷搜索引擎接收到用戶輸入的關(guān)鍵詞后,需要對關(guān)鍵詞做相應(yīng)處理,才能進入排名過程。處理包括這么幾個方面:
1.中文分詞 與頁面索引一樣,網(wǎng)站推廣關(guān)鍵詞也需要進行中文分詞,將查詢字符串轉(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合。原理和頁面分詞相同。
2.去停止詞 跟索引時一樣,網(wǎng)絡(luò)營銷搜索引擎也需要把關(guān)鍵詞中的停止詞去掉,為了提高網(wǎng)站推廣排名相關(guān)性及效率。
3.整合搜索觸發(fā) 有些關(guān)鍵詞會觸發(fā)整合搜索,比如明星姓名就經(jīng)常觸發(fā)圖片和視頻內(nèi)容,當(dāng)前的熱門話題又容易觸發(fā)資訊內(nèi)容。什么詞能夠觸發(fā)整合搜索,都是在網(wǎng)絡(luò)營銷關(guān)鍵詞處理階段進行處理。
4.拼寫錯誤矯正 用戶如果不小心輸入的錯誤的拼寫單詞或者英文單詞,搜索引擎會提示用戶正確的單詞。比如:用戶輸入“SEO技數(shù)”,網(wǎng)絡(luò)營銷搜索引擎將提示用戶:您要找的是不是“SEO技術(shù)”。
5.指令處理 關(guān)鍵詞完成分伺候,搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“SEO博客”時,程序分詞為“SEO”和“博客”兩個詞,搜索引擎排序時默認(rèn)認(rèn)為,用戶尋找的是既包含“SEO”,也包含“博客”的也頁面。那么只包含“SEO”不包含“博客”,或者只包含“博客”不包含“SEO”的頁面,會被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是一種簡單的說法,其實網(wǎng)站推廣內(nèi)部處理還是相當(dāng)復(fù)雜,實際上我們還是會看到只包含一部分網(wǎng)絡(luò)營銷關(guān)鍵詞的搜索結(jié)果,這里與網(wǎng)站權(quán)重,還有頁面內(nèi)容等等有密切關(guān)聯(lián)。
三、初始子集的選擇
找到關(guān)鍵詞匹配文件之后,還不能進行相關(guān)性計算,因為找到的文件會有幾十萬幾百萬,甚至上千萬個。那么就需要對這些文件作相關(guān)性計算,這個時間還是比較長的。
實際上用戶根本不需要知道所有的匹配頁面,絕大部分用戶只會查看前兩頁,也就是前20個結(jié)果。因此,網(wǎng)絡(luò)營銷搜索引擎也沒必要計算那么多頁面的相關(guān)性,只要計算最重要的一部分頁面就可以了。經(jīng)常使用網(wǎng)站推廣搜索引擎的人都會注意到,搜索結(jié)果頁面通常最多只顯示100個。也就是1000個搜索結(jié)果。
所以,搜索引擎只需要計算前1000個結(jié)果的相關(guān)性,就能滿足用戶要求。
問題來了,那這么多相關(guān)性的文件,怎么才能知道哪1000個文件的相關(guān)性最高呢?所以用于最后相關(guān)性計算的初始頁面子集起著相當(dāng)重要的作用,現(xiàn)在就必須依靠其他特征而不僅僅是相關(guān)性,其中最主要的就是頁面的權(quán)重。由于所有匹配文件都已經(jīng)具備基本的相關(guān)性(都包含所查詢的關(guān)鍵詞),網(wǎng)站推廣搜索引擎通常會用非相關(guān)性的頁面特征挑選出一個初始子集。初始子集的數(shù)目是多少?幾萬個?或者更多,其實我們都不知道。不過可以肯定的是,當(dāng)匹配頁面數(shù)目巨大時,我網(wǎng)絡(luò)營銷搜索引擎不會對這么多頁面進行計算,而必須選出頁面權(quán)重較高的一個子集,再對子集中的頁面進行相關(guān)性計算。
四、排名過濾及調(diào)整
選出匹配文件子集、計算相關(guān)性后,大體排名就已經(jīng)確定了。之后網(wǎng)絡(luò)營銷搜索引擎可能還有一些過濾算法,對排名進行輕微調(diào)整,其中最主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面,雖然按照正常的權(quán)重和相關(guān)性計算排在前面,但網(wǎng)站推廣搜索引擎的懲罰算法卻可能在最后一步把這些頁面調(diào)到后面去。典型的例子是,百度的100外,Google的負(fù)6、負(fù)30、負(fù)950等算法。
五、排名顯示
所有排名確定后,排名程序調(diào)用原始頁面的標(biāo)題標(biāo)簽、描述標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁面上。有時候網(wǎng)站推廣搜索引擎需要動態(tài)生成頁面摘要,而不是調(diào)用頁面本身的描述標(biāo)簽。
六、相關(guān)性計算
選出初始子集后,對子集的頁面計算關(guān)鍵詞相關(guān)性。前一步網(wǎng)站推廣關(guān)鍵詞相關(guān)性是最基礎(chǔ)的,這里的相關(guān)性計算在排名過程中起著最重要的一步。相關(guān)性計算是搜索引擎算法中最領(lǐng)SEO感興趣的部分。影響相關(guān)性的網(wǎng)站推廣主要因素包括這么幾個方面:
1.關(guān)鍵詞常用程度。
經(jīng)常分詞后的多個網(wǎng)站推廣關(guān)鍵詞,對整個搜索字符串的意義貢獻并不相同。越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對搜索詞的意義貢獻越大。舉個例子,假設(shè)用戶輸入的搜索詞是“我的SEO博客”,“我的”這個詞常用程度非常高,在很多頁面上會出現(xiàn),它對“我的SEO博客”這個搜索詞的辨識程度和意義相關(guān)度貢獻就很小。找出那些包含“我們”這個詞的頁面,對網(wǎng)站推廣搜索排名相關(guān)性幾乎沒什么影響,有太多頁面包含“我的”這個詞。
“SEO博客”這個詞相對于“我的”這個詞來說常用程度還是比較低的,對于“我的SEO博客”這個搜索詞的意義貢獻要大的多。那些包含“SEO博客”這個詞的頁面,對“我的SEO博客”這個搜索詞會更為相關(guān)。常用詞的極致就是停止詞,對頁面完全沒有任何意義。
所以網(wǎng)站推廣搜索引擎對搜索詞串中的關(guān)鍵詞并不是一視同仁的處理,而是根據(jù)常用程度進行加權(quán)。不常用的詞加權(quán)系數(shù)高,常用詞加權(quán)系數(shù)低,排名算法對不常用的詞給予更多關(guān)注,所以比較冷的詞你稍微優(yōu)化一下就上去了。
另外,我們假設(shè)A、B兩個頁面同時出現(xiàn)“我的”及“SEO博客”這兩個詞。但是“我的”這個詞在A頁面內(nèi)容中,“SEO博客”在A頁面網(wǎng)絡(luò)營銷標(biāo)題標(biāo)簽中。B頁面正好相反,“我們”出現(xiàn)在標(biāo)題標(biāo)簽中,而“SEO博客”在B頁面內(nèi)容中,那么針對“我的SEO博客”這個搜索詞,A頁面更相關(guān)。
2.詞頻及密度。
一般在認(rèn)為沒有網(wǎng)絡(luò)營銷關(guān)鍵詞堆積的情況下,搜索詞在頁面中出現(xiàn)的次數(shù)越多,密度越高,說明頁面與搜索詞的相關(guān)性越高。當(dāng)然這只是一個大致規(guī)律,實際情況未必如此,所以相關(guān)性計算還有其他因素。出現(xiàn)頻率及密度只是因素的一部分,而且重要程度越來越低了。
3.關(guān)鍵詞位置及形式。
如索引中提到的一樣,頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫中。關(guān)鍵詞出現(xiàn)在比較重要的位置,如標(biāo)題標(biāo)簽、黑體、H1等,說明頁面與關(guān)鍵詞越相關(guān)。這一部分就是頁面SEO所要解決的。
4.關(guān)鍵詞距離。
切分后的網(wǎng)絡(luò)營銷關(guān)鍵詞完整匹配的出現(xiàn),說明與搜索詞最相關(guān)。假設(shè)搜索“熊向陽博客”時,頁面上連續(xù)完整的出現(xiàn)“熊向陽博客”這五個字是最相關(guān)的。如果“熊向陽”和“博客”兩個詞沒有連續(xù)匹配出現(xiàn),出現(xiàn)的距離近些,也被網(wǎng)站推廣搜索引擎認(rèn)為相關(guān)性稍微大一些,太遠相關(guān)性會越來越低甚至沒有。
5.鏈接分析及頁面權(quán)重。
除了頁面本身的因素,頁面之間的鏈接和權(quán)重關(guān)系也影響網(wǎng)絡(luò)營銷關(guān)鍵詞的相關(guān)性,其中最重要的是錨文本。頁面有越多以搜索詞為錨文本的導(dǎo)入鏈接,說明頁面的相關(guān)性越強。鏈接分析還包括了鏈接源頁面本身的主題、錨文本周圍的文字等。
總結(jié):網(wǎng)絡(luò)營銷中,上面我只簡單的介紹了搜索引擎工作的過程。當(dāng)然實際搜索引擎的工作步驟與算法是非常復(fù)雜的。另外搜索引擎算法無時無刻不在變化著,這只是大致方向,想要了解網(wǎng)站推廣搜索引擎更為深層的算法需要我們每天去實踐,試驗,分析以及總結(jié)。