品才網(wǎng)>計算機/互聯(lián)網(wǎng)/通信>爬行、抓取、索引、收錄是什么意思

爬行、抓取、索引、收錄是什么意思

時(shí)間：2022-07-13 03:49:07 計算機/互聯(lián)網(wǎng)/通信我要投稿

相關(guān)推薦

爬行、抓取、索引、收錄是什么意思

　　看SEO有關(guān)博客和論壇時(shí)能感覺(jué)到，很多SEO并沒(méi)有理解爬行、抓取、索引、收錄這些概念到底指的是什么，區別在哪，noindex、nofollow、robots文件的功能又是什么。下面我們就一起來(lái)了解一下吧!

　　【爬行、抓取、索引、收錄是什么意思】

　　爬行是什么?

　　爬行指的是搜索引擎蜘蛛從已知頁(yè)面上解析出鏈接指向的URL，然后沿著(zhù)鏈接發(fā)現新頁(yè)面(也就是鏈接指向的URL)的過(guò)程。當然，蜘蛛并不是發(fā)現新URL馬上就爬過(guò)去抓取新頁(yè)面，而是把發(fā)現的URL存放到待抓地址庫中，蜘蛛按照一定順序從地址庫中提取要抓取的URL。

　　抓取是什么?

　　抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL，訪(fǎng)問(wèn)這個(gè)URL，把讀取的HTML代碼存入數據庫。蜘蛛的抓取就是像瀏覽器一樣打開(kāi)這個(gè)頁(yè)面，和用戶(hù)瀏覽器訪(fǎng)問(wèn)一樣，也會(huì )在服務(wù)器原始日志中留下記錄。

　　索引是什么?

　　索引指的是將一個(gè)URL的信息進(jìn)行整理，存入數據庫，也就是索引庫，用戶(hù)搜索時(shí)，搜索引擎從索引庫中提取URL信息并排序展現出來(lái)。索引的英文是index。索引庫是用于搜索的，所以被索引的URL是可以被用戶(hù)搜索到的，沒(méi)有被索引的URL用戶(hù)在搜索結果中是看不到的。

　　要注意的是，所謂“一個(gè)URL的信息“，并不限于蜘蛛從URL上抓取來(lái)的內容，還有來(lái)自其它來(lái)源的信息，如外部鏈接、鏈接的錨文字等。有的時(shí)候，索引庫中關(guān)于這個(gè)URL的的信息，根本沒(méi)有從這個(gè)URL抓取來(lái)的內容，但搜索引擎知道這個(gè)URL的存在，并且有一些其它信息。

　　抓取和索引不是一回事。

　　收錄是什么?

　　我個(gè)人覺(jué)得收錄和索引沒(méi)有區別。只不過(guò)收錄是從搜索用戶(hù)角度看的，搜索時(shí)能找到這個(gè)URL，就是這個(gè)URL被收錄了。從搜索引擎角度看，URL被收錄了，也就是這個(gè)URL的信息在索引庫中存在。英文并沒(méi)有收錄這個(gè)詞，和索引用的是同一個(gè)詞index。

　　noindex的.作用是什么?

　　頁(yè)面頭信息中放上meta noindex標簽是告訴搜索引擎不要索引這個(gè)URL，也就是用戶(hù)搜索時(shí)找不到這個(gè)URL的信息，這個(gè)URL不會(huì )返回在搜索結果列表中。

　　noindex不是告訴搜索引擎不要抓取這個(gè)URL，實(shí)際上，noindex要起作用，這個(gè)URL是必須先被抓取的，不然搜索引擎怎么看到頁(yè)面HTML代碼中有noindex標簽呢?

　　robots文件的作用是什么?

　　robots文件是告訴搜索引擎，某些URL不要抓取。注意，這里說(shuō)的是不要抓取，沒(méi)說(shuō)不要索引。和noindex是正相反的。

　　nofollow的作用是什么?

　　給鏈接加上nofollow屬性是告訴搜索引擎，不要沿著(zhù)這個(gè)鏈接爬行，就當這個(gè)鏈接不存在。注意，nofollow只是告訴蜘蛛不要爬這個(gè)鏈接，沒(méi)有說(shuō)不要抓取鏈接指向的URL，也沒(méi)有說(shuō)不要索引鏈接指向的URL，nofollow既沒(méi)禁止抓取，也沒(méi)禁止索引。

　　概念說(shuō)過(guò)后，指出幾個(gè)SEO們經(jīng)常弄不明白的情況：

　　沒(méi)有被抓取的頁(yè)面是可以被索引的

　　也就是說(shuō)，蜘蛛沒(méi)有訪(fǎng)問(wèn)和抓取這個(gè)頁(yè)面(比如被robots文件禁止抓取)，這個(gè)頁(yè)面卻有信息存在索引庫中，用戶(hù)搜索時(shí)還能看到。

　　比如，淘寶整個(gè)網(wǎng)站用robots文件禁止百度蜘蛛抓取，但沒(méi)有用noindex禁止索引(如上面說(shuō)的，禁止抓取后，就沒(méi)辦法禁止索引了，不抓取，就看不到noindex標簽了)，所以即使百度沒(méi)有訪(fǎng)問(wèn)和抓取淘寶頁(yè)面，但淘寶很多頁(yè)面是被百度索引的用戶(hù)可以搜到的。

　　百度從網(wǎng)上那么多鏈接知道淘寶首頁(yè)的存在，通過(guò)鏈接的錨文字也知道這個(gè)頁(yè)面標題大概是淘寶之類(lèi)的，當然更知道百度口碑里的評價(jià)數。所以即使百度蜘蛛沒(méi)有抓取淘寶首頁(yè)，用戶(hù)還是能搜到，并且顯示一些百度知道的信息。

　　要想百度不能返回淘寶首頁(yè)該怎么辦呢?取消robots文件的禁止抓取，頁(yè)面上用noindex禁止索引。

　　被抓取的頁(yè)面是可以不被索引的

　　最常見(jiàn)的就是上面說(shuō)過(guò)的，頁(yè)面頭信息使用noindex禁止索引，頁(yè)面被抓取，讀到noindex后，不被索引，不會(huì )在搜索結果中返回。

　　還有可能是因為頁(yè)面內容是抄襲、轉載、低質(zhì)量的，搜索引擎雖然抓取了頁(yè)面，索引過(guò)程中檢測出這些內容問(wèn)題，被丟棄，沒(méi)有被索引。所以頁(yè)面沒(méi)有被收錄，通常要先檢查原始日志，看看是否被抓取過(guò)，如果被抓取過(guò)，可能是內容質(zhì)量問(wèn)題，如果根本沒(méi)被抓取，建議先看看網(wǎng)站結構是否有問(wèn)題。

　　加了nofollow的鏈接目標頁(yè)面可以被抓取和索引

　　前面說(shuō)了，nofollow既不禁止抓取，也不禁止索引。nofollow的作用是告訴蜘蛛不要跟著(zhù)這個(gè)鏈接爬，就當這個(gè)鏈接不存在，但nofollow只對這個(gè)鏈接起作用，對別的鏈接沒(méi)作用，這個(gè)鏈接加了nofollow，不意味著(zhù)別的地方就沒(méi)有正常的指向這個(gè)URL的鏈接，只要別的地方出現了沒(méi)加nofollow的鏈接，目標URL還是會(huì )被發(fā)現、抓取(假設沒(méi)被robotx文件禁止)、索引(假設沒(méi)加noindex )。

　　上面這些概念和應用在SEO中是很重要的，如果還沒(méi)看懂，我也不知道該怎么再解釋了，只能建議再多讀幾遍。

【爬行、抓取、索引、收錄是什么意思】相關(guān)文章：

如何讓爬蟲(chóng)快速抓取被收錄網(wǎng)頁(yè)07-11

是不是靜態(tài)化便于搜索引擎抓��？07-11

應屆的意思是什么？07-10

躊躇的意思是什么08-19

倜儻的意思是什么03-09

膜拜的意思是什么04-11

歐巴桑的意思是什么05-26

猶豫的意思是什么08-04

余悸的意思是什么08-05

札記的意思是什么08-04

最新文章

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆