
檢索(Crawl ) 與索引( Index )是SEO領(lǐng)域里面非常非?;镜膬蓚€(gè)觀念,是在學(xué)習(xí)SEO之前一定要理解的基本觀念,但檢索以及索引的優(yōu)化概念很大,只透過一篇文章我可能沒有辦法完整的講完,因此這篇文章我只會(huì)針對(duì)基礎(chǔ)的概念先進(jìn)行解說,并且在文章中連結(jié)到我曾經(jīng)寫過的相關(guān)文章來幫助你學(xué)習(xí): )
Google也有提供官方很多的HTML語法給網(wǎng)站經(jīng)營者,透過這些語法以及HTML標(biāo)記你可以優(yōu)化搜尋引擎的爬蟲如何檢索、理解你的網(wǎng)站,不過每一種語法的功能不同,因此每一種語法我會(huì)以獨(dú)立的文章來撰寫,像是:
三分鐘搞懂SEO的《meta robots、robots.txt》
認(rèn)識(shí)SEO排名的殺手,『重復(fù)內(nèi)容』超完整攻略
(重復(fù)內(nèi)容文章內(nèi)提到的Canonical標(biāo)記便是一種常用到的SEO標(biāo)記)
認(rèn)識(shí)SEO的Title Tag(標(biāo)題標(biāo)記)
但在閱讀上述這些文章之前,建議還是必須要先看完這篇文章,確保自己已經(jīng)有檢索(Crawl )以及索引(Index) 的概念。
理解SEO的『檢索』以及『索引』
網(wǎng)路爬蟲這個(gè)說法比較抽象,Google官方將它稱為Google Spider、Google Bot,你可以把整個(gè)世界的網(wǎng)路想像為一個(gè)巨大蜘蛛網(wǎng),而搜尋引擎本身有屬于它的一只爬蟲程式,這支程式會(huì)像蜘蛛一樣在這巨大的網(wǎng)路上爬行,并收集資訊。
做SEO工作,維持搜尋引擎爬蟲與網(wǎng)站之間良好的關(guān)系是非常重要的,我們必須要盡量讓它能夠完整爬取你網(wǎng)站上的優(yōu)質(zhì)內(nèi)容,否則會(huì)對(duì)你的網(wǎng)站SEO有影響(在這篇文章中我會(huì)慢慢提到),而搜尋引擎運(yùn)作原理我們可以簡單分為三個(gè)階段:

階段1 –檢索(爬取):搜尋引擎的爬蟲來你的網(wǎng)站上爬取、下載網(wǎng)站資料的這個(gè)動(dòng)作我們叫做檢索,在Google官方的文件上正式的專有名詞叫做『檢索』,但SEO業(yè)界比較習(xí)慣白話一點(diǎn)來稱呼,通常我們會(huì)稱呼為爬取、抓取等比較白話的用詞。這個(gè)階段Google的爬蟲會(huì)在你的網(wǎng)站上爬取所有能爬到的資料,包含你的網(wǎng)頁內(nèi)容、程式碼、圖片等所有的網(wǎng)頁資訊。
階段2 –索引(收錄):將你的網(wǎng)頁資料收錄、建檔到搜尋引擎里面的這個(gè)動(dòng)作我們叫做索引(白話一點(diǎn)來說就是收錄的意思),但你的網(wǎng)站就算被收錄到搜尋引擎里面也不代表你會(huì)得到很可觀的搜尋流量,Google也許愿意收錄你的網(wǎng)站,但未必愿意給你的網(wǎng)站很好的搜尋排名(取決于你的網(wǎng)站是否是一個(gè)優(yōu)質(zhì)的網(wǎng)站、是否有被很好的優(yōu)化,否則Google也許愿意收錄網(wǎng)站,但不愿意讓你的網(wǎng)站很常被搜尋到)很多人以為網(wǎng)站沒有搜尋流量就代表沒有被Google收錄,其實(shí)這觀念是不對(duì)的,『是否有被收錄』、 『是否有排名有流量』是兩件事。但至少被Google收錄進(jìn)搜尋引擎是好的第一步,如果Google連收錄你的網(wǎng)站都不愿意,那更不用談搜尋流量以及SEO了。
階段3 –曝光在搜尋結(jié)果:搜尋者查詢關(guān)鍵字時(shí),你的網(wǎng)站可能會(huì)被Google提供給搜尋者,而你的品牌也會(huì)因此獲得搜尋流量(但這取決于你的網(wǎng)站是否是一個(gè)優(yōu)質(zhì)的網(wǎng)站、是否有做SEO)。
為什么學(xué)SEO要理解『檢索』以及『索引』?
實(shí)務(wù)上我們?cè)趯W(xué)習(xí)SEO時(shí),會(huì)碰到很多網(wǎng)路上的文章主題都是環(huán)繞在所謂的"排名因素",也就是你的網(wǎng)站該如何做才能被Google排名被搜尋結(jié)果的前面名次,但實(shí)務(wù)上一個(gè)網(wǎng)站會(huì)面臨到的SEO問題有很多面向,根據(jù)網(wǎng)站的架構(gòu)、網(wǎng)站的產(chǎn)業(yè)、所在的市場等不同的因素而定,并不是只要優(yōu)化"排名因素"就夠了,Google如果沒辦法很健康的爬取你的網(wǎng)站資料,那么網(wǎng)站的排名因素優(yōu)化做再好都沒用,因?yàn)樗呐老x根本看不到你網(wǎng)站里面的資料,所以你要了解搜尋引擎的爬蟲到底是怎么檢索(爬取資料),然后又是怎么索引(收錄)網(wǎng)站。
舉例來說,在我們實(shí)務(wù)上常常遇到有客戶的網(wǎng)站是使用AJAX程式建構(gòu)出動(dòng)態(tài)式的瀑布流,在你進(jìn)入網(wǎng)站時(shí)會(huì)看到四則文章連結(jié),接著你滑鼠向下卷動(dòng)時(shí),程式則會(huì)觸發(fā)并出現(xiàn)后面四則(簡單來說就是Facebook 現(xiàn)在的做法,俗稱瀑布流),通常這個(gè)狀況底下Google的爬蟲只會(huì)爬取到一開始的前面幾則文章而已,因?yàn)榫W(wǎng)路爬蟲不會(huì)像人類使用者去往下卷動(dòng)并觸發(fā)AJAX程式的瀑布流。在這類案例之下,Google的爬蟲看到的網(wǎng)頁資訊很少,當(dāng)然也很傷害你的SEO(不管你的網(wǎng)站再棒、再好,只要Google的爬蟲看不到,那么根本沒有意義)。

因此作為SEOer,研究、了解爬蟲的效能是很重要的,我們必須要了解搜尋引擎的爬蟲有哪些效能限制、哪些網(wǎng)頁技術(shù)是爬蟲無法好好的爬取(像瀑布流就是大多情況沒辦法被搜尋爬蟲很有效的爬到資料),而Google的爬蟲、Bing/Yahoo搜尋引擎的爬蟲由各自是不同的團(tuán)隊(duì)/公司所開發(fā)出來,因此他們的爬蟲效能又有些不一樣,如果做SEO時(shí)希望除了Google之外的Yahoo/Bing也可以優(yōu)化好,那么就要全部都花時(shí)間去研究。
如何確定『檢索』或『索引』狀況是否有問題
這個(gè)議題有很多面向可以談?wù)?,在這篇我先談一些基礎(chǔ)觀念以及方法。
首先,大部分的情況只要你的網(wǎng)站被Google很健康的『爬取』,收錄狀況就不太會(huì)有問題,通常如果Google有很健康的檢索你的網(wǎng)站但卻沒有收錄你的網(wǎng)站,那代表你的網(wǎng)站可能有違規(guī)、用作弊的方法做SEO而遭到Google懲處(除了違規(guī)懲處之外,很少有網(wǎng)站是檢索都沒問題,但Google卻不愿意收錄你的網(wǎng)站)。
那么,要如何檢查Google是否有健康的爬取(檢索)你的網(wǎng)站呢?常見的方法之一就是透過Search Console的報(bào)表(如下圖范例)。
(如果你還不知道什么是Search Console,可以參考這篇Search Console新手教學(xué))

這張報(bào)表最上方的藍(lán)色趨勢圖是"每日檢索的網(wǎng)頁數(shù)目",這張圖表代表著Google"每天來爬你的網(wǎng)站時(shí),都爬了多少個(gè)網(wǎng)頁",通常圖表會(huì)?在一個(gè)區(qū)間范圍內(nèi)波動(dòng),大多情況Google每天來爬多少網(wǎng)頁取決于三件事情:
1. 你的網(wǎng)站在市場上有多重要、網(wǎng)站的SEO權(quán)重有多高(也就是所謂的Crawl Budget)
2. 你的網(wǎng)站架構(gòu)是否有使用不利于爬蟲的技術(shù),導(dǎo)致爬蟲不容易爬到資料
3.你是否有主動(dòng)阻擋Google爬你的網(wǎng)站(阻擋Google的部分可以閱讀非技術(shù)人員也能看懂的《meta robots、robots.txt》)
上述報(bào)表可以幫你檢查Google是否有健康的"爬取"你的網(wǎng)站,通常如果Google爬你網(wǎng)頁的數(shù)字與你的網(wǎng)站落差太大,對(duì)SEO都是不太好的,比方說你的網(wǎng)站共有8,000個(gè)網(wǎng)頁,但Google每天來爬你的網(wǎng)站卻只有爬50頁~100頁左右,如果你的網(wǎng)站有8,000頁,Google每天爬的網(wǎng)頁數(shù)最好在500~1,000之間是比較正常的。
但"索引"呢?要如何檢查Google有健康的索引我的網(wǎng)站呢?這部分你可以閱讀我的學(xué)習(xí)使用Site指令,診斷《 Google索引》狀況,里面有很完整的教學(xué)。
在SEO上要如何避免『檢索』以及『索引』出問題?
撇除你有違規(guī)、作弊的行為發(fā)生而導(dǎo)致Google不愿意好好的處理你的網(wǎng)站,以下有幾個(gè)常見的優(yōu)化項(xiàng)目,也是我們通常在擔(dān)任SEO顧問時(shí)會(huì)檢查的優(yōu)化項(xiàng)目:
盡量不要過度使用對(duì)Google不友善的AJAX,尤其在重要的網(wǎng)頁或內(nèi)容上面
雖然說Google近年來宣稱搜尋引擎現(xiàn)在已經(jīng)能夠滿有效的解析JavaScript、AJAX技術(shù),但實(shí)務(wù)上還是有很多網(wǎng)站的JavaScript、AJAX沒辦法被Google很有效的解析(這篇文章中提到的瀑布流就是AJAX的一種應(yīng)用),因此盡可能避免在導(dǎo)覽列、面包屑、網(wǎng)站側(cè)欄、商品/文章列表這些重要的地方使用JavaScript以及AJAX會(huì)比較保險(xiǎn)(在這篇文章我先列出幾個(gè)大方向的常見重點(diǎn),未來我會(huì)在看大家回饋狀況各自拉出來寫成獨(dú)立的文章,JavaScript與AJAX這個(gè)議題有太多層面要探討,但簡單總結(jié)的話就是不要太過度使用AJAX)。
盡可能把『網(wǎng)站速度』優(yōu)化好
根據(jù)Google官方的說明,Google針對(duì)每一個(gè)網(wǎng)站有所謂的"爬取額度(Crawl Budget)",也就是說他在爬你的網(wǎng)站時(shí)只會(huì)給予你一定的時(shí)間額度,因此你必須要盡可能的優(yōu)化網(wǎng)站速度,讓爬蟲在最短的時(shí)間內(nèi)可以爬到盡可能多的網(wǎng)站,而這個(gè)爬取的額度會(huì)根據(jù)你的網(wǎng)站在市場上的重要性、以及SEO的網(wǎng)站權(quán)重而定。
舉例來說,Google決定給你的網(wǎng)站每天10分鐘的額度,那么他每天只會(huì)來爬你的網(wǎng)站10分鐘,并且10分鐘一到他就會(huì)離開網(wǎng)站,因此,如果你的網(wǎng)站速度盡可能優(yōu)化到好,可以幫助他在同樣的10分鐘內(nèi)爬完你的網(wǎng)頁,概念上簡單來說是這樣:
當(dāng)你的網(wǎng)站速度很慢時(shí),他10分鐘只能爬完100個(gè)網(wǎng)頁。
當(dāng)你的網(wǎng)站速度夠快時(shí),他可以在10分鐘內(nèi)爬完500頁。
以上述情況來說,你SEO成效的差距就出來了,我們會(huì)希望Google在同樣的時(shí)間內(nèi)可以爬越多網(wǎng)頁越好,Google如果連爬你的網(wǎng)站都不能好好的爬,基本上成效當(dāng)然不好。
針對(duì)網(wǎng)站速度優(yōu)化的部分,你可以參考這篇來獲得更多知識(shí):超重要的SEO優(yōu)化項(xiàng)目:『網(wǎng)站速度』優(yōu)化
避免重復(fù)內(nèi)容發(fā)生
重復(fù)內(nèi)容問題要盡量避免(尤其是網(wǎng)址參數(shù)所產(chǎn)生的重復(fù)內(nèi)容),重復(fù)內(nèi)容會(huì)讓爬蟲要去爬更多無效的網(wǎng)頁(如果你不知道什么是重復(fù)內(nèi)容,我在重復(fù)內(nèi)容這篇文章有完整的解說),簡單來說,如果你的網(wǎng)頁總共有500頁,但你有很嚴(yán)重的重復(fù)內(nèi)容問題而導(dǎo)致網(wǎng)頁膨脹到了1,200頁,那么當(dāng)中有700頁的網(wǎng)頁會(huì)浪費(fèi)掉爬蟲的爬取額度,畢竟爬蟲每天能爬的網(wǎng)頁是很有限的。
最基礎(chǔ)的網(wǎng)頁問題以及SEO問題必須要避免
如果你有很多損毀/壞掉的網(wǎng)頁,或是網(wǎng)站上有很多不必要的、很胡亂的轉(zhuǎn)址可能都會(huì)影響爬蟲爬你網(wǎng)站的效能以及額度,因此在經(jīng)營網(wǎng)站時(shí)一些最基礎(chǔ)的事情你必須要盡量避免,像是:
網(wǎng)頁盡量不要有損毀、壞掉的情況發(fā)生。
盡量避免不必要的轉(zhuǎn)址。
如果有產(chǎn)品/文章下架的話,請(qǐng)把連結(jié)從網(wǎng)站上移除,避免消耗掉你的爬取額度,同時(shí),如果不妥善移除已下架的商品或文章,要是被使用者瀏覽到這些網(wǎng)頁對(duì)使用者的體驗(yàn)也不是太好。
本文由網(wǎng)上采集發(fā)布,不代表我們立場,轉(zhuǎn)載聯(lián)系作者并注明出處:http://m.zltfw.cn/shbk/39143.html