企業微信
酷網科技公司
當前位置: 新聞中心  >>  瀏覽文章
時間:2016年05月19日 信息來源:網絡

百度站長工具之鏈接分析:如何定位網站的SEO問題?

網站鏈接分析,源于對Web結構中超鏈接的多維分析,是網站優化運營中不可缺少問題診斷方法。百度站長平臺也推出其官方的鏈接分析工具。那么,我們該如何利用好百度站長工具的鏈接分析功能,來定位網站可能存在的SEO問題呢?

以下為來自百度站長社區斑竹響1亮2的3名4字的分享:

有一次在社區里面看到有站長朋友提問,說百度站長工具的鏈接分析里,怎么出現了錨文本是@NULL@的數據,感到非常不明覺厲。

然后我就試著聯系了一些平時經常打交道的站長朋友,問了下他們是否關注過百度站長工具中的鏈接分析,是否定期進行過統一分析,當出現大量死鏈數據時,是否對問題進行了定位……結果發現有很多站長朋友,在平時很少進行這樣的分析工作,所以當出現問題的時候,就感到不明覺厲,不由得大罵度娘坑爹。

實際上,度娘到底坑不坑爹我是不知道啦,不過我想說度娘只是把問題反映出來,更多地還需要我們自己去定位問題并進行處理,才能確保網站不會因為該問題而受到較大程度的影響。

于是,我就有了制作本期專題的打算,專題地址:http://bbs.zhanzhang.baidu.com/thread-75492-1-1.html。

1、本文的主要內容有哪些呢?

(1)查找是否有黑鏈出現——從日志分析,百度蜘蛛抓取了網站的哪些預期外的頁面,是否存在黑鏈。(這個可能要先賣個關子,因為這又是個大工程啦,本期專題會提到一些)

(2)百度站長工具外鏈分析——查看是否有垃圾外鏈、黑鏈等,以及鏈向的站內什么地方,如何處理。(本期里面也有所涉及)

(3)百度站長工具鏈接分析——三大死鏈(內鏈死鏈、鏈出死鏈、鏈入死鏈),批量下載數據,合并數據,excel操作,按邏輯分類,定位問題,處理問題。(定位和處理,材料不夠,因為好多已經處理過了,沒有材料了= =|||||)

(4)從分析這些數據,得到的與SEO效果相關的其他信息(垃圾搜索引擎、垃圾外鏈帶來的無用抓取,浪費資源配額,如何拒絕。)

(5)如何自動化地使用shell腳本,定位到被百度蜘蛛抓取到的死鏈,并進行復查,然后將確定為死鏈的URL進行自動化提交。(本期專題內容太多,留作下期專題用)

(6)分析工具介紹(firefox設置,插件,excel,windows命令提示符批處理)

2、本文中主要使用到的工具

(只是結合例子中,如果有其他相似功能的工具,請結合自身習慣使用即可)

【瀏覽器】火狐(Firefox)瀏覽器,版本無所謂

【插件】:Launch Clipboard

功能:一鍵打開剪切板中存在的URL。(注意URL中只能有英文數字標點,如果有中文可能無法被識別)??旖萱I:alt + shift +K(先復制好單個或者多個URL)

設置:打開選項設置,選擇好下載文件自動保存的位置(我這里選擇了桌面,你也可以單獨創建一個文件夾,好對批量下載的文件進行歸類)

【表格處理】:Microsoft Office 2013 Excel

【文本處理】:Notepad++

【批量處理】:Windows自帶命令提示符

一、我們可以先看一下外鏈分析。

分析外鏈數據的主要目的是,找出垃圾外鏈,主動去封堵垃圾外鏈可能對網站造成的惡劣影響。最終目標:

1、找到垃圾外鏈的域名,進行防盜鏈處理(針對來源為垃圾域名的,直接返回404狀態碼);

2、處理站內可能存在問題的頁面。

這里,我會重點講解第一點;第二點比較簡單,我會講解得比較粗略。

1、定位出垃圾域名。

網站優化 百度站長平臺 鏈接分析工具 網站SEO

圖注:可以看到這是一個明顯不正常的趨勢圖

我們可以下載外鏈數據,來進行初步分析。

網站優化 百度站長平臺 鏈接分析工具 網站SEO

圖注:下載得到的表格文件(csv逗號分隔符)

但是這樣一份原始數據,是很難進行分析的。因此我們需要按照一定邏輯對其進行分析——就是按照【被鏈接的網頁url】進行分類。

首先,我們可以快速瀏覽一下,進行直觀判斷,這些頁面大部分是什么頁面呢?

針對我們網站的情況來說,外鏈數據分為兩類,正常外鏈與垃圾外鏈。

而垃圾外鏈又分為兩種:站內搜索結果頁面(垃圾搜索詞)以及被黑客入侵植入的黑鏈(已經處理為死鏈)。

我們進行數據處理的目的有兩個:識別出哪些是正常外鏈,哪些是垃圾外鏈,并根據垃圾外鏈的相關數據,進行一些處理,保護好網站;并且需要使被垃圾鏈接指向的頁面,不被搜索引擎抓?。ɡ速M抓取資源配額)以及被收錄/索引(保證網站詞庫不受污染,不為網站帶來形象與關鍵詞方面的負面影響)。

第一步,篩選出網站的搜索結果頁面

網站優化 百度站長平臺 鏈接分析工具 網站SEO

6.png

圖注:篩選數據、復制到新的sheet中,刪除原始sheet中的篩選數據,來分類數據

還有幾類搜索鏈接格式,都以相同方式進行處理。

然后把原始sheet中剩下的數據進行去重(空白行),得到剩余的鏈接信息。

7.png

圖注:對剩余數據進行簡單的去重處理。

然后,我們需要對黑鏈進行篩選。黑鏈的數據,一般需要先從網站日志中分析得到(這樣是最全面的,為了保證效率,會需要使用到shell腳本來自動運行,但是涉及篇幅過多,我將在以后的專題中進行講解)。

當然也可以對表格中【被鏈接的網頁url】這一列按照順序排序后,挨著分析得到(自己去打開,同時黑客會使用一些特殊手段,妨礙我們去識別真正的會被搜索引擎識別到的垃圾內容,最常見的情況就是,使用js跳轉。這樣我們通過瀏覽器訪問時,會看到完全不一樣的內容,而搜索引擎抓取時,則下載到了垃圾內容。)

這時,我們需要使用一款firefox插件【No Script】,旨在屏蔽網站上的js,看到與搜索引擎類似的內容。

8.png

圖注:屏蔽瀏覽器中java script的插件

另外還有一種不是很靠譜的甄選方法,在搜索引擎里面去搜:【site:域名 博彩】之類的關鍵詞,把不符合網站預期的關鍵詞拿去搜,就可以得到很多鏈接了。(這里需要使用一些方法,把鏈接全都批量導出,在今后的專題中,我會繼續講解的)

篩選過程我就只能省略啦,可以結合視頻看一看。

9.png

圖注:篩選出來的網站黑鏈

我們之所以要這么辛苦地找出垃圾外鏈,目的就是要把這些垃圾外鏈的域名記錄下來,避免這些垃圾域名被黑客重復利用,拿去制作新的垃圾鏈接,從而在第一時間拒絕掉這些垃圾外鏈,使百度蜘蛛從垃圾外鏈訪問我們網站上內容時,無法獲取到任何信息(也就是返回404狀態碼,被識別成死鏈),久而久之,這些垃圾域名的權重就會越來越低(因為導出了死鏈,影響搜索引擎的正常抓取工作),這樣我們不僅保護了自己,也懲罰了敵人。

具體方法是,把垃圾頁面找出來——從搜索結果頁面和黑鏈的兩個sheet中,把外鏈頁面整合到一起。如sheet3所示。

10.png

圖注:合并垃圾外鏈頁面

接下來的處理會使用到一款小工具,來快速獲取這些鏈接的主域名。

https://www.benmi.com/getdomain.html

11.png

圖注:將鏈接復制到左邊紅框里,點擊本地提取,就會出現在右側紅框

如此一來,我們就得到了這些垃圾外鏈頁面的主域名,我們只需要在我們服務器上配置一下防盜鏈,禁止refer(來源)為這些域名的訪問(返回404http狀態碼)即可。

2、從站內對搜索結果頁面進行處理(黑鏈處理我保留在下一次專題,因為要大量結合linux的shell腳本):

權重比較高的網站的站內搜索,一定要注意antispam(反垃圾)。如果不加以防范的話,一旦被黑客利用,那么可能會造成大量搜索頁面被百度抓取,黑客利用高權重網站的資源,快速做好黃賭毒行業的關鍵詞排名。但是這對于我們網站來說,則是噩夢般的打擊。不作處理的話,可能會導致如下幾方面的問題:浪費大量的蜘蛛抓取配額,去抓取垃圾頁面;垃圾頁面被搜索引擎收錄,網站詞庫被黑客污染,使得網站的行業詞和品牌詞排名不理想;對網站形象造成損失……等。

在進行這類反垃圾策略的時候,我們需要關注四個方面:站內用戶可以正常使用;不允許搜索引擎抓取這類頁面;拒絕垃圾外鏈的訪問;頁面上不得出現垃圾關鍵詞。

既然有了明確的目標,那么相應的應對方案也就出來了,那就是:

A 限制來源,拒絕掉所有非站內來源的搜索

B 頁面上的TKD等關鍵位置,不對搜索詞進行調用

C 指定敏感詞庫過濾規則,將敏感詞全部替換為星號*(有一定技術開發要求)

D 在robots.txt聲明,不允許抓取

E 在頁面源代碼head區間添加meta robots信息,聲明該頁面不允許建立索引(noindex)

進行以上處理,可以解決掉大部分站內搜索頁面(不局限于該類頁面,甚至其他的頁面只要不希望搜索引擎抓取以及建立索引的話,都可以這樣處理)容易出現的問題。

二、我們再來看一下死鏈分析。

死鏈,在站長工具的死鏈提交工具的幫助文檔中已經有詳盡的闡釋,我僅僅進行一些補充即可。

死鏈一般有如下幾種:內部死鏈、外部死鏈。

內部死鏈,就是我們網站上出現的,由于種種原因使得百度蜘蛛抓取鏈接時,無法獲取到內容而被識別的死鏈。大部分情況下,對于我們來說,這種死鏈是可以通過一些方式進行避免的,因此是可控的。同時,由于鏈向死鏈的頁面,都是我們網站上的頁面,并且鏈出了死鏈的頁面,對搜索引擎非常不友好,所以不及時處理的話,極有可能使搜索引擎無法順利地對網站上有價值頁面進行抓取,從而間接導致“局部降權”(抓取一些頁面的周期變得越來越長,快照更新緩慢,排名上不去之類)。

內部死鏈問題比較嚴重,所以應當優先處理內部的死鏈。

而我們可以放慢地百度站長工具中獲取死鏈數據,并按照一定邏輯方式進行整理和劃分,定位問題,接下來我將圍繞進行死鏈數據分析進行講解。

通過在頁面上對死鏈信息進行預覽,誰都會,我就不需要過多說明了。而死鏈問題,不需要每天都去下載表格進行分析,而只需要每天大致看一下數據,是否有突然出現的死鏈,找到原因并處理(一般大范圍出現,比較容易被察覺到,也是需要緊急處理的);其次我們需要定期進行一次較為徹底的死鏈數據分析,看看是否有平時沒有關注到的死鏈問題(一般出現范圍小,會比較難以察覺,但是任由其長期發展下去的話,可能會造成大問題)。

12.png

圖注:一般突然出現的大量死鏈,很容易被察覺,也比較好確定原因

13.png

圖注:這是早期定位到的問題,雖然提交了處理建議,但被程序員忽視掉,然后在最近突然爆發出來,因此即使小問題,也應當引起足夠重視(由于發生后處理及時,沒有出現過于嚴重的問題)

接下來,我來簡單說一下,批量下載百度站長工具中的死鏈數據,以及合并數據進行統一處理。

內鏈死鏈(子域名A指向子域名A)和鏈出死鏈(子域名A指向子域名BCD……),一般來說比較容易分析,我們來針對鏈入死鏈(子域名BCD……指向子域名A)來進行一些批量處理吧。

14.png

15.png

圖注:可以對數據進行下載,格式為csv(逗號分隔符),可以方便地使用excel進行處理;并且下方有官方的幫助文檔。

到這里,你可以試著點擊【下載數據】,這樣火狐瀏覽器就會自動把文件下載到你設置好的位置。

16.png

這里告訴大家一個小技巧,可以點擊下載列表中的對應文件,復制下載鏈接,然后粘貼出來。

http://zhanzhang.baidu.com/inbound/deadlist?site=http://www.abc.com/&download=1&type=3&day=2016-02-30&f=dead_link&key=

相信長得帥的朋友已經看出來了,site=http://www.abc.com/就是指定你的網站域名,而day=2016-02-30就是指定你需要的日期了。type=3就是指定下載【鏈入死鏈】的數據,而type=2是鏈出死鏈,type=1是內鏈死鏈。而其他參數不需要做過多了解。

腦洞大開的朋友一定會想,如果我把日期參數做一下處理,是不是能夠批量地直接下載這些文件了呢?沒錯,可以的。這里你需要借助一下excel強大的功能。

先手動做好兩行URL,然后選中,左鍵按住從右下角,往下拉你就發現excel已經自動幫你對URL進行了補完。非常方便。

17.png

松開左鍵,就得到了想要的結果

18.png

然后,你就可以復制下這些URL,然后到火狐瀏覽器中,用我們之前安裝好的Launch Clipboard插件,使用其快捷鍵alt + shift +K批量打開上圖中的鏈接,然后我們的火狐瀏覽器就會自動把這些文件下載存儲到我們指定好的位置。

來,我們看一看收獲的成果吧:

19.png

好像還可以的樣子哦?但是,這么多表格難道要我一個一個地打開嗎?

當然不。我們來看一看某一個表格長什么樣子吧。看到了嗎?這里有記錄時間的。

也就是說,如果我們能想辦法把這些文件都合并起來的話,也是有辦法區分日期的。



(編輯:小酷)

 


上一篇:營銷型企業網站如何建設吸引用戶
下一篇:被百度K站后如何快速恢復
聯系
客服

掃碼添加客服微信

服務熱線
服務熱線
0411-62888851
公眾號

掃碼關注公眾號

回到頂部