10分鍾解鎖搜索引擎背後的秘密:關于SEO的4個(gè)知識點
- 作(zuò)者:admin
- 發表時(shí)間(jiān):2018-05-23 09:45:40
- 來(lái)源:未知
提起Search Engine Optimization(SEO),想必大(dà)家(jiā)一定熟悉又陌生(shēng)。SEO是最先被我們所熟悉的數(shù)字營銷概念之一。酒店(diàn)市場(chǎng)部或數(shù)字營銷負責人(rén)在每月或每季度,也會(huì)收到來(lái)自總部的SEO報告;那(nà)為(wèi)何又用 “陌生(shēng)” 來(lái)形容它呢?
是因為(wèi)從業以來(lái),筆者發現,大(dà)多(duō)數(shù)酒店(diàn)市場(chǎng)部或數(shù)字營銷負責人(rén)僅對SEO的部分概念和(hé)術(shù)語有(yǒu)所了解,而對搜索引擎如何工作(zuò),如何解讀日常所接觸到的SEO報告,如何發現問題,如何進行(xíng)優化存在諸多(duō)盲點,對于如何針對酒店(diàn)自身情況制(zhì)定SEO策略,更是無從下手。
那(nà)麽從今天起,筆者将通(tōng)過一個(gè)系列文章,力争為(wèi)大(dà)家(jiā)梳理(lǐ)SEO知識點,希望大(dà)家(jiā)在讀完該系列文章後,能夠獲得(de)些(xiē)許啓發,更好地為(wèi)所任職酒店(diàn)服務。
作(zuò)為(wèi)第一篇,我們先來(lái)了解一些(xiē)基礎內(nèi)容,大(dà)家(jiā)是否曾思考過以下問題:
SEO是什麽?我們如何去定義它?
為(wèi)什麽要做(zuò)SEO?
移動互聯時(shí)代,還(hái)需要做(zuò)SEO嗎?
搜索引擎的工作(zuò)原理(lǐ)是什麽?在簡單的 “輸入-搜索” 這幾步簡單的操作(zuò)後,搜索引擎是如何從海量的數(shù)據中,找尋到我們所需要的內(nèi)容,并展現給我們的?
帶着這些(xiē)疑問,一起√get今天的知識吧(ba)!
SEO的全稱是 “Search Engine Optimization”,中文譯為(wèi) “搜索引擎優化”。
簡單地理(lǐ)解,SEO是一個(gè)從自然搜索結果中獲取網站(zhàn)流量的手段和(hé)過程;
更加嚴謹地去定義的話(huà),SEO是一個(gè) “在了解搜索引擎自然排名機制(zhì)的基礎上(shàng),對網站(zhàn)進行(xíng)內(nèi)部和(hé)外部的調整和(hé)優化,改進網站(zhàn)在搜索引擎中的關鍵詞自然排名,以便争奪流量,進而促成網站(zhàn)銷售或品牌曝光” 的一個(gè)過程。
知識點2:為(wèi)什麽要做(zuò)SEO?
網站(zhàn)所有(yǒu)者都希望自己的網站(zhàn)流量越大(dà)越好,無論網站(zhàn)盈利模式和(hé)目标是什麽,有(yǒu)人(rén)訪問是前提。SEO則是給網站(zhàn)帶來(lái)訪問者的最好方法。讓我們一起來(lái)了解一下SEO的 “優勢”:
低(dī)成本:雖可(kě)能會(huì)産生(shēng)費用,但(dàn)成本相對較低(dī)
高(gāo)回報:來(lái)自SEO的用戶多(duō)數(shù)情況下是在 “主動地找尋” 酒店(diàn),目标非常精準
可(kě)遷移:搜索引擎是用戶搜索、比較、購買商品的重要渠道(dào),即便移動互聯網發展迅猛,SEO核心仍在,隻不過載體(tǐ)有(yǒu)所變化
夠持久:精準廣告投放、付費搜索等類型推廣模式,一旦停止投放,流量将急劇(jù)下降;線上(shàng)活動等事件營銷效果明(míng)顯,但(dàn)話(huà)題過後流量随即下降。而搜索排名一旦上(shàng)去,可(kě)相對穩定地維持比較久的時(shí)間(jiān),流量也因此會(huì)源源不斷地輸送過來(lái)
可(kě)擴展:掌握關鍵詞研究和(hé)內(nèi)容擴展方法後,我們可(kě)以持續地,為(wèi)網站(zhàn)增加目标關鍵詞及流量
知識點3:移動互聯時(shí)代,還(hái)需要做(zuò)SEO嗎?
讓我們來(lái)看一些(xiē)行(xíng)業調查數(shù)據,了解一下SEO是否還(hái)有(yǒu)效?
2017 年上(shàng)半年,即時(shí)通(tōng)信、搜索引擎、網絡新聞作(zuò)為(wèi)基礎的互聯網應用,用戶規模趨于穩定,搜索引擎應用繼續保持移動化趨勢。
雖然即時(shí)通(tōng)信作(zuò)為(wèi)移動互聯網流量核心入口的地位已經确立。在新網民各類應用中的滲透率排名第一,高(gāo)于排名第二的搜索引擎16. 9 個(gè)百分點,但(dàn)搜索引擎在目前仍舊(jiù)穩居第二位。
截至 2017 年6 月,我國搜索引擎用戶規模達 6.09 億,使用率為(wèi)81.1%,用戶規模較 2016 年底增加707 萬,增長率為(wèi) 1.2%
數(shù)據取自《 2017 中國互聯網絡發展狀況統計(jì)報告》
知識點4:搜索引擎的工作(zuò)原理(lǐ)?
面對數(shù)以萬億的信息,搜索引擎如何做(zuò)到在 1 秒(miǎo)鍾甚至更短(duǎn)的時(shí)間(jiān)內(nèi),返回我們想要的內(nèi)容?回答(dá)這個(gè)問題,需要對搜索引擎工作(zuò)原理(lǐ)做(zuò)個(gè)分解,大(dà)緻分為(wèi) 3 個(gè)階段:
爬行(xíng)和(hé)抓取:搜索引擎程序通(tōng)過訪問網頁,獲得(de)頁面HTML代碼存入數(shù)據庫
預處理(lǐ):程序對數(shù)據庫網頁進行(xíng)一系列處理(lǐ),為(wèi)排名程序調用做(zuò)準備
排名:用戶輸入關鍵詞後,程序調用預處理(lǐ)好的數(shù)據,計(jì)算(suàn)相關性,生(shēng)成結果
首先看第一階段,即 “爬行(xíng)和(hé)抓取”
對于搜索引擎來(lái)說,首要任務是完成對互聯網內(nèi)網頁數(shù)據收集。而用于數(shù)據收集的工具,就是我們常常聽(tīng)到的 “蜘蛛”,它是搜索引擎用來(lái)爬行(xíng)和(hé)訪問頁面的程序。蜘蛛發出頁面訪問請(qǐng)求後,服務器(qì)返回HTML代碼,蜘蛛把收到的代碼存入數(shù)據庫中。蜘蛛會(huì)對鏈接進行(xíng)跟蹤,根據一個(gè)頁面上(shàng)的鏈接,爬行(xíng)(讀取)至下一個(gè),這也是為(wèi)什麽被人(rén)稱之為(wèi) “蜘蛛”。
在數(shù)據收集過程中,聰明(míng)的蜘蛛為(wèi)了提升效率,避免重複讀取網頁數(shù)據,搜索引擎會(huì)建立地址庫,記錄 “被讀取的”,和(hé) “發現但(dàn)未被讀取的” 頁面。構建原始頁面數(shù)據庫,以儲存讀取後的頁面數(shù)據。
讀取結束,構建好原始數(shù)據庫後,搜索引擎将進行(xíng)第二階段的任務 - “預處理(lǐ)”。什麽是 “預處理(lǐ)” 呢?原始數(shù)據庫中存在數(shù)以萬億的網頁數(shù)據,排名程序無法做(zuò)到每時(shí)每刻,對數(shù)量如此龐大(dà)的數(shù)據進行(xíng)分析,也就無法在1- 2 秒(miǎo)內(nèi)返回搜索結果。因此必須處理(lǐ)這些(xiē)數(shù)據,為(wèi)最後排名程序調用做(zuò)準備。
預處理(lǐ)的第一步是對數(shù)據進行(xíng)篩選,去除無用的信息,提取文字。現在搜索引擎仍以文字內(nèi)容為(wèi)基礎,數(shù)據庫中的頁面數(shù)據,除了我們在網頁上(shàng)看到的文字外,還(hái)包含HTML标簽、JavaScript程序等無法用于排名的內(nèi)容。程序需要去除這些(xiē)無用信息,提取出可(kě)用于排名的內(nèi)容。除文字外,程序也會(huì)提取出一些(xiē)特殊的包含文字信息的代碼,例如Meta标簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。
随後,我們需要介紹一個(gè)小(xiǎo)知識,即中文搜索引擎所獨有(yǒu)的步驟 - “中文分詞”。“詞” 是程序處理(lǐ)數(shù)據、用戶查詢的單位和(hé)基礎。與英文不同,搜索引擎必須區(qū)分用戶搜索的中文內(nèi)容裏,哪幾個(gè)字組成一個(gè)單詞,才能進行(xíng)下一步工作(zuò)。
在分詞過後,程序需要進行(xíng)另一個(gè)步驟,即剔除 “停止詞”。在任何語言裏,都存在出現頻率高(gāo),但(dàn)對內(nèi)容影(yǐng)響不大(dà)的詞彙,例如中文 “的”、“啊”、“卻”;英文中 “the” “a” “and” “to”“of”等。這些(xiē)被稱作(zuò) “停止詞”,程序會(huì)去除這些(xiē)停止詞,使搜索內(nèi)容更突出,減少(shǎo)程序計(jì)算(suàn)上(shàng)內(nèi)耗。
此外程序會(huì)對版權聲明(míng)文字、導航欄文字等對搜索無用的內(nèi)容進行(xíng)剔除,消除噪聲。
緊接着,程序還(hái)會(huì)對網頁數(shù)據進行(xíng)去重,同一內(nèi)容可(kě)能會(huì)重複發布在多(duō)個(gè)網站(zhàn),為(wèi)了避免将多(duō)篇重複的內(nèi)容返回給擁護,所以需要在預先剔除重複內(nèi)容。
在完成上(shàng)述後,程序得(de)到的是 “獨特的,能反應頁面主題的,以詞彙為(wèi)單位的” 內(nèi)容,緊随其後,程序将正向索引。通(tōng)過提取關鍵詞,把內(nèi)容轉化成 “以關鍵詞為(wèi)單位” 的集合,同時(shí)記錄關鍵詞出現頻次、格式(黑(hēi)體(tǐ)、加粗錨文字)、位置(标題、頁面段首、段尾)等屬性。然後将其轉化為(wèi)如下結構,儲存進數(shù)據庫:
經 “正向索引” 後的數(shù)據,無法直接排名,因為(wèi)同一關鍵詞可(kě)能出現在多(duō)個(gè)文件中,所以聰明(míng)的程序猿們,發明(míng)了 “倒排索引” ,将文件重新構造為(wèi)倒排索引:
現在,搜索引擎已經做(zuò)好了随時(shí)處理(lǐ)用戶搜索請(qǐng)求的準備,那(nà)麽随之而來(lái)的,就是搜索引擎第三階段的任務,即排名。
每當搜索引擎接受到用戶搜索的內(nèi)容後,會(huì)進行(xíng)這樣的處理(lǐ):
分詞(與預處理(lǐ)一樣,将我們搜索的內(nèi)容,劃分為(wèi)以“詞”為(wèi)基礎組合)
剔除停止詞(與預處理(lǐ)一樣,剔除不相關詞彙)
指令處理(lǐ)(搜索引擎默認是在關鍵詞之間(jiān)運用 “與”的邏輯)
拼寫矯正(對程序檢測判定為(wèi)錯誤的內(nèi)容,進行(xíng)矯正)
經過以上(shàng)處理(lǐ)并進行(xíng)匹配後,程序會(huì)在倒排索引數(shù)據庫中找出符合搜索內(nèi)容關鍵詞的文件集合。例如,搜索內(nèi)容包括 “關鍵詞1” “關鍵詞2”,排名程序僅需要找到含有(yǒu)這 2 個(gè)關鍵詞的文件,即 “文件2” “文件3”。
你(nǐ)可(kě)能會(huì)問,匹配成功的文件肯定有(yǒu)上(shàng)千萬,搜索引擎會(huì)對他們進行(xíng)排名嗎?答(dá)案是否定的。由于數(shù)量龐大(dà),因此搜索引擎程序不會(huì)對這些(xiē)龐大(dà)的數(shù)據進行(xíng)處理(lǐ),隻會(huì)針對最重要的部分頁面數(shù)據進行(xíng)排名,此外用戶通(tōng)常也隻會(huì)查看前兩頁搜索結果,因此,搜索引擎也不需要大(dà)費周折地去對所有(yǒu)數(shù)據進行(xíng)排名。那(nà)麽,怎樣針對 “最重要的部分頁面數(shù)據” 去排名呢,這裏就要依賴于自身算(suàn)法 - 相關性計(jì)算(suàn)的幫助,該算(suàn)法會(huì)計(jì)算(suàn)某個(gè)頁面數(shù)據與用戶搜索內(nèi)容的相關性,從而完成排名。
到這裏,搜索引擎已基本完成用戶的 “搜索請(qǐng)求”,但(dàn)根據2/ 8 定律,約20%的搜索內(nèi)容,占總搜索次數(shù)的80%左右。搜索引擎會(huì)把常見詞彙的排名以及數(shù)據進行(xíng)緩存,在用戶搜索時(shí)會(huì)直接調用緩存數(shù)據,從而減少(shǎo)一系列龐大(dà)又耗能的步驟,縮短(duǎn)反饋時(shí)間(jiān)、提升用戶體(tǐ)驗。
作(zuò)者:凱文
來(lái)源:酒店(diàn)營銷HotelMarketing(ID:hotelmarketing6)
聯系我們
一切良好工作(zuò)的開(kāi)始,都需相互之間(jiān)的溝通(tōng)搭橋,歡迎咨詢。