純采集網(wǎng)站站長(cháng)的經(jīng)驗總結

時(shí)間:2022-07-10 13:29:36 計算機/互聯(lián)網(wǎng)/通信 我要投稿
  • 相關(guān)推薦

純采集網(wǎng)站站長(cháng)的經(jīng)驗總結

  導讀:建網(wǎng)站初期,需要提前規劃好網(wǎng)站的內容,做好網(wǎng)站運營(yíng)計劃策劃方案十分關(guān)鍵,對于網(wǎng)站的發(fā)展很有好處。

純采集網(wǎng)站站長(cháng)的經(jīng)驗總結

  X是一個(gè)純采集網(wǎng)站站長(cháng),下面的這些總結,有些是關(guān)于SEO,有些是關(guān)于采集和運維,都是很基礎的個(gè)人見(jiàn)解,僅作分享,請自辨好壞是非,實(shí)踐出真知。

  原創(chuàng )內容好還是采集內容好?

  當然是原創(chuàng )好,因為百度是這么說(shuō)的,誰(shuí)叫人家是裁判。

  為什么X原創(chuàng )了很多文章,還是不被收錄?收錄了沒(méi)好的排名?

  一個(gè)搜索引擎,它的核心價(jià)值是要為用戶(hù)提供他/她最需要的結果。搜索引擎是有統計網(wǎng)民需求的,對于網(wǎng)民需求量小或者幾乎沒(méi)有需求的內容,即使你是原創(chuàng )也可能被搜索引擎忽略,因為它不想浪費資源在無(wú)意義的內容上。

  對網(wǎng)民需求量大的內容,收錄應該會(huì )比較多、比較快,但是,正因為收錄多,即使你是原創(chuàng ),也可能很難擠進(jìn)排名。

  搜索引擎統計網(wǎng)民需求以什么來(lái)標識?

  關(guān)鍵詞。每一個(gè)人搜索一個(gè)關(guān)鍵詞時(shí),就表明他/她對這個(gè)詞相關(guān)的內容有需求。而且,使用搜索引擎的人,通常是有問(wèn)答需求、檢索查詢(xún)需求。當然搜索引擎內部肯定有非常龐大的分析系統,對這些需求進(jìn)行精確的定位,詳見(jiàn)百度指數。比如搜索的關(guān)鍵詞是“手機”,很有可能是想要買(mǎi)手機或者查某款的價(jià)格,也可能只是想要下載漂亮的壁紙。但是,如果是想要壁紙,就會(huì )有更精確的關(guān)鍵詞“手機壁紙”,以下拉框或者相關(guān)搜索的形式呈現出來(lái)。

  既然原創(chuàng )內容好,為什么要采集?

  1. 雖然原創(chuàng )好,但只要方法適當,采集的效果并不會(huì )比原創(chuàng )差多少,甚至比沒(méi)掌握到方法的那些原創(chuàng )好很多。

  2. 精力有限,原創(chuàng )很難保證長(cháng)期大量更新,如果請個(gè)編輯,投入產(chǎn)出比可能是負數。

  市面上采集器那么多,應該用哪個(gè)好?

  每個(gè)采集器都有它的獨特之處,所謂存在即合理。請根據自己的需求來(lái)選擇即可。X的采集器是自己開(kāi)發(fā)的,開(kāi)發(fā)的過(guò)程中考慮了以下幾方面,使用其他采集器的也可作參考:

  1. 直接提供已分類(lèi)的海量關(guān)鍵詞,這些關(guān)鍵詞都是百度已經(jīng)統計的有網(wǎng)民需求的詞(有百度指數),或者是這些詞的長(cháng)尾詞,來(lái)自百度下拉框或相關(guān)搜索。

  2. 直接按關(guān)鍵詞采集,智能分析網(wǎng)頁(yè)正文進(jìn)行抓取,不需要自己寫(xiě)采集規則。

  3. 抓取到的正文經(jīng)過(guò)規范的標簽清理,段落全部以

  標簽呈現,亂碼一律去除。

  4. 根據采集到的內容自動(dòng)配圖,圖片一定是與該內容相關(guān)度非常高的。以這種方式代替偽原創(chuàng ),既不影響可讀性,又使文章圖文并茂,做到比原創(chuàng )所提供的信息更豐富。

  5. 正文內容中的關(guān)鍵詞自動(dòng)加粗,也可自定義要插入的關(guān)鍵詞。但沒(méi)有做句子重排、段落重排等影響可讀性的所謂“偽原創(chuàng )”功能。

  6. 可直接使用關(guān)鍵詞和其相關(guān)詞組合作為標題,也可抓取目標網(wǎng)頁(yè)標題。

  7. 可進(jìn)行微信文章采集。

  8. 不用觸發(fā)或者掛機。

  9. 集成百度站長(cháng)平臺主動(dòng)推送,加快收錄。

  不同的網(wǎng)站程序,比如織夢(mèng)、WordPress、dz、zblog、帝國cms或者其他,對SEO有什么影響?

  理論上沒(méi)有影響。因為搜索引擎并不知道你是什么程序,或者它可以通過(guò)一些規則識別出來(lái),也不可能因為程序本身的不同而影響它的判斷。

  那什么會(huì )影響SEO呢?答案是模板。因為基本上這些程序都有模板機制,同樣程序可以輸出不同的頁(yè)面,不同的程序也可以輸出同樣的頁(yè)面,這就是模板。模板確定之后,你的每一個(gè)頁(yè)面就按照這個(gè)框架來(lái)輸出,也就是整個(gè)html結構已經(jīng)確定。而這些html,正是搜索引擎要重點(diǎn)關(guān)注的,它得從這些html中得到它想要的信息。因此,一套好的模板非常重要。

  頁(yè)面模板設計應該注意哪些細節?

  1. 權重結構順序。整個(gè)頁(yè)面的html中(注意是html,而不是顯示出來(lái)的版面),越靠前的位置,權重越高。由此引申出來(lái),“title”、keyword、description三個(gè)標簽,因為最靠前,權重最高。其次通常是導航,也是基本上是最靠上的,權重也非常高。再次就是文章標題和正文。這是根據html的前后來(lái)排序的。

  2. 因為搜索引擎首先要遵循W3C標準,所以,W3C定義的一些本來(lái)就是用來(lái)表示重要信息的標簽,權重自然就高,比如,特別是h1,用來(lái)表示當前頁(yè)面最重要的信息,一般每個(gè)頁(yè)面只能有一個(gè),其權重估計與title相當,也通常是用來(lái)放當前頁(yè)面的標題,當然也有為了提高首頁(yè)權重,用h1來(lái)放置logo或首頁(yè)鏈接,都是可以的。另外還有em、strong這樣的標簽,用來(lái)表示強調,一般認為strong權重高于標簽,同樣也是加粗作用,但X們認為從SEO的角度看是沒(méi)有權重加強的。

  3. css或者js代碼對搜索引擎來(lái)說(shuō)通常是無(wú)意義的,盡量使用單獨的文件來(lái)存放,或者在允許的情況下放到html尾部去

  網(wǎng)站結構規劃應該注意哪些問(wèn)題?

  1. URL設計。URL也是可以包含關(guān)鍵詞的,比如你的網(wǎng)站是關(guān)于電腦的,你的URL中可以包含“PC”,因為它在搜索引擎眼里通常是“電腦”的同義詞。URL不要太長(cháng),層次盡量不要超過(guò)4層,這個(gè)就點(diǎn)到為止。

  2. 欄目設計。欄目通常是與導航相關(guān)聯(lián)的,設計時(shí)應該考慮網(wǎng)站整體的主題,用戶(hù)可能會(huì )對哪些內容感興趣,欄目名稱(chēng)最好是網(wǎng)站的幾個(gè)主關(guān)鍵詞,這樣也方便利用導航的權重。

  3. 關(guān)鍵詞布局。理論上每一個(gè)內容頁(yè)都應該有它的核心關(guān)鍵詞,同一個(gè)欄目下的文章,盡可能?chē)@欄目關(guān)鍵詞展開(kāi)。一個(gè)簡(jiǎn)單粗暴的辦法就是直接用欄目關(guān)鍵詞的長(cháng)尾詞。

  動(dòng)態(tài)、偽靜態(tài)、靜態(tài),這三者哪個(gè)好?

  這個(gè)不能一概而論,推薦使用偽靜態(tài)或靜態(tài)。這三者的區別,是是否生成靜態(tài)文件,以及URL格式是否動(dòng)態(tài)。生成靜態(tài)文件,本質(zhì)上是為了加快訪(fǎng)問(wèn)速度,減少數據庫查詢(xún),但會(huì )不斷增加占用空間;偽靜態(tài)只是通過(guò)URL重寫(xiě)修改URL,實(shí)際上還是每次都要經(jīng)過(guò)程序運算、查詢(xún)數據庫再輸出頁(yè)面,對加快訪(fǎng)問(wèn)速度完全無(wú)效。動(dòng)態(tài)與偽靜態(tài)的差異只在于URL,帶問(wèn)號加參數。

  所以關(guān)注兩個(gè)點(diǎn)就好:網(wǎng)站打開(kāi)速度是否夠快?你是否需要節約服務(wù)器空間?

  不同的網(wǎng)站程序,數據庫操作的效率可能不同。一般來(lái)講,內容頁(yè)數量在1萬(wàn)以?xún)鹊,?yè)面打開(kāi)速度都是比較快的,數據量更大一些,達到5萬(wàn)、十萬(wàn)甚至更多,通常就要考慮靜態(tài)化了。

  有哪些途徑改善訪(fǎng)問(wèn)速度?

  1. 上面已經(jīng)說(shuō)到的靜態(tài)化。

  2. 通常很多網(wǎng)站模板中都有隨機調用文章或者類(lèi)似的版塊,事實(shí)上對數據庫來(lái)說(shuō),隨機是一項比較重的負擔,在模板中應該盡量減少隨機文章的調用。如果不可避免,可以考慮從數據庫上優(yōu)化,對有索引的字段排序通常比沒(méi)有索引要快很多。

  3. 將圖片、js、css等不經(jīng)常修改的文件,放到專(zhuān)用的靜態(tài)服務(wù)器上,多個(gè)js、或者多個(gè)css能合并的盡量合并到一個(gè)文件,減少http連接次數。

  4. 使用各類(lèi)云加速產(chǎn)品。對普通網(wǎng)站來(lái)說(shuō),免費的百度云加速或者360的云加速都還可以。

  文章比較多,網(wǎng)站已經(jīng)開(kāi)啟靜態(tài),但是每次全站更新都要花很長(cháng)時(shí)間怎么辦?

  X的做法是使用緩存機制,這里只提供一個(gè)思路,可能需要自己二次開(kāi)發(fā)。

  網(wǎng)站設定為偽靜態(tài),每一個(gè)請求到達時(shí),程序檢查是否存在對應的緩存html文件,如果該文件的生成時(shí)間是多少小時(shí)或幾天以前,X們判定它需要更新,這時(shí)候執行正常流程,程序查詢(xún)數據庫,生成html后,寫(xiě)入到緩存文件,再輸出到客戶(hù)端。

  當下一次訪(fǎng)問(wèn)到達時(shí),比如1分鐘以后又來(lái)一個(gè)訪(fǎng)問(wèn)相同頁(yè)面,再次檢查緩存文件時(shí)間。從時(shí)間上可以判斷文件非常新,完全不用更新,則直接讀取文件內容輸出到客戶(hù)端。這樣每個(gè)頁(yè)面都可以實(shí)現自動(dòng)生成,也只有第一個(gè)訪(fǎng)客會(huì )感受到速度慢,后面的訪(fǎng)客訪(fǎng)問(wèn)時(shí)都相當于是靜態(tài)訪(fǎng)問(wèn),速度是非?斓。

  如果是獨立服務(wù)器,還可以考慮自動(dòng)檢測服務(wù)器負載,如果負載本來(lái)就高,那就算判斷出來(lái)需要更新,也暫時(shí)不更新,改為直接輸出。

  圖片是引用遠程網(wǎng)址好還是放在自己服務(wù)器好?

  這個(gè)也是各有優(yōu)劣。引用遠程網(wǎng)址,可以節約自己的帶寬,但很可能會(huì )因為對方服務(wù)器緩慢、或刪除資源、或防盜鏈,圖片無(wú)法顯示。如果下載到自己服務(wù)器,當然一切都自己掌控,但是圖片會(huì )非常占用空間,總體上可能比生成靜態(tài)所占的空間更大,而且如果訪(fǎng)問(wèn)量大,圖片是最吃帶寬的。

  網(wǎng)站內鏈應該怎樣優(yōu)化?

  內鏈是百度官方推薦的優(yōu)化手段之一,所以這是一定要做的。通常表現的形式是正文中出現某個(gè)關(guān)鍵詞,給這個(gè)關(guān)鍵詞加上一個(gè)鏈接,指向另一個(gè)正好是這個(gè)關(guān)鍵詞相關(guān)內容的頁(yè)面。因此就誕生了一些所謂的優(yōu)化手法,強行在正文中插入一些關(guān)鍵詞和鏈接,以此進(jìn)行類(lèi)似互推的操作。還有的為了提高首頁(yè)權重,到處都放上網(wǎng)站名稱(chēng),并做上首頁(yè)鏈接,以為這樣可以提高目標頁(yè)面的權重。但是這些很可能都是適得其反,因為搜索引擎會(huì )統計每個(gè)鏈接的點(diǎn)擊率。如果放在醒目位置點(diǎn)擊卻很少的鏈接,有可能會(huì )判斷為作弊。所以,請只在正文中本來(lái)就有的關(guān)鍵詞上做內鏈,就可以了。

  段落重排、句子重排、同義詞替換這些偽原創(chuàng )手法到底好不好?

  不好。因為搜索引擎已經(jīng)智能,已經(jīng)不是簡(jiǎn)單的數據庫檢索,它會(huì )自然語(yǔ)義分析(詳情請搜索“NLP”),凡是語(yǔ)義解析比較困難的句子或者段落,它是可以判斷為可讀性差的,所以X認為這些“偽原創(chuàng )”可能是自作聰明。

  評論模塊基本上沒(méi)有人用,該要還是不要?

  要。評論模塊最頭疼是事情是垃圾評論,通常真正發(fā)言的訪(fǎng)客很少,垃圾評論一大堆,整天和營(yíng)銷(xiāo)軟件斗智斗勇。這里提供一個(gè)X已經(jīng)實(shí)現的方案,對收錄可能有一定幫助(沒(méi)有依據的,只是猜測):

  保留評論框、但禁止評論。所有評論由自己的網(wǎng)站程序生成。前面提到搜索引擎會(huì )自然語(yǔ)義分析,其中有一項重要的能力,就是情感判斷。搜索引擎會(huì )計算每條評論的情感值,是positive(積極)還是negative(消極),具體傾向是10%還是90%。如果評論內容表達的是積極情感,則可以給你的正文加分,反之則減分。至于怎樣自動(dòng)生成積極的評論,就八仙過(guò)海各顯神通吧。

  這是在網(wǎng)絡(luò )社交發(fā)展起來(lái)后的必然趨勢,用這種方式來(lái)反映一個(gè)頁(yè)面的用戶(hù)體驗度。同理還有分享、點(diǎn)贊等,原理類(lèi)似。

  綠蘿卜算法之后,外鏈到底還有沒(méi)有用?

  有用。參見(jiàn)搜索引擎三定律之相關(guān)性定律。既然是定律,就不會(huì )改變。誰(shuí)的內容被引用得多,誰(shuí)就是權威。在主動(dòng)推送出現之前,外鏈應該算是蜘蛛認識一個(gè)頁(yè)面內容的第一渠道。

  外鏈一定要錨文本或者裸鏈嗎?

  不是。搜索引擎肩負重任,要努力發(fā)現真正有價(jià)值的東西,排除那些沒(méi)價(jià)值的東西。所以有可能你直接提交的鏈接沒(méi)收錄,在別人地方隨便發(fā)個(gè)純文本網(wǎng)址,被它發(fā)現了,還計算了加分。

  除了錨文本和裸鏈,還可以用關(guān)鍵詞+網(wǎng)址的形式發(fā)純文本。這樣在網(wǎng)址前面的那個(gè)關(guān)鍵詞是會(huì )自動(dòng)與該網(wǎng)址關(guān)聯(lián)的。

  還有,有些鏈接雖然加了nofollow屬性,但是在百度計算外鏈的時(shí)候,還是會(huì )計算的。

  收錄和索引到底什么關(guān)系?

  收錄表示蜘蛛來(lái)抓取過(guò)、分析過(guò)。索引表示蜘蛛分析之后,認為內容有一定價(jià)值。只有進(jìn)入索引的內容才有可能出現在搜索結果中,展現給用戶(hù)。也就是說(shuō)只有索引的內容才有機會(huì )帶來(lái)流量。

【純采集網(wǎng)站站長(cháng)的經(jīng)驗總結】相關(guān)文章:

新網(wǎng)站的站長(cháng)對網(wǎng)站一切最好親自操作08-01

純奶雪糕的做法07-17

什么是純循環(huán)小數08-01

核酸采集優(yōu)秀事跡12-20

采集核酸的優(yōu)秀事跡12-20

核酸采集隊長(cháng)事跡11-19

核酸采集人員事跡11-19

采集核酸人員事跡11-22

護士采集核酸事跡11-20

純糧粉廣告語(yǔ)12-30

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆