深圳SEO

Robots 文件設置和技術細節(jié)

        Robots.txt文件放在網(wǎng)站的根目錄下,主要用于通知蜘蛛在該網(wǎng)站上的抓取范圍,SEO可以在這個文件中聲明該網(wǎng)站中不想被搜索引擎收錄的部分,或者指定搜索引擎只收錄特定的部分。

        1.經(jīng)常使用到Robots.txt 文件的情況

        ●    網(wǎng)站升級,老版本網(wǎng)站的很多頁面在新版本網(wǎng)站中去掉了,在這種情況下,可以通過Robots文件 告訴蜘蛛不再抓取這些已經(jīng)被去掉的頁面。

        ●    網(wǎng)站存在很多重復的內(nèi)容,比如一個網(wǎng)站同時存在動態(tài)頁面和已經(jīng)經(jīng)過靜態(tài)化處理的頁面,這些頁面在內(nèi)容上都是完全重復的內(nèi)容,為了解決重復的問題,可以在Robots文件中禁止蜘蛛抓取動態(tài)頁面。

        ●    網(wǎng)站內(nèi)部有些內(nèi)容不便于公開發(fā)布,但是需要允許內(nèi)部查閱。遇到這種情況,可以在Robots中告訴蜘蛛不要抓取。


        2. Robots文件的基本寫法

        User-agent :                                           *

        Allow :                                                     /cgi-bin/see

        Allow :                                                    /tmp/hi

        Allow :                                                    /~joe/look

        Disallow :                                               /cgi-bin/

        Disallow :                                               /tmp/

        Disallow :                                               /~joe/

        Allow是允許蜘蛛爬行的頁面,而Disallow后面則是不允許蜘蛛訪問的路徑和文件。

        3. Robots的使用示例

        (1)僅允許訪問某目錄下某個后級的文件。這里僅允許訪問帶“'s" 符號的網(wǎng)址,如下。

        User-agent: *

        Allow : .asp$

        Disallow : /


        (2)禁止索引網(wǎng)站中所有的動態(tài)頁面。

        這里是限制訪問帶“? ”的網(wǎng)址,例如,index.asp?id=1。

        User- agent : *

        Disallow : /*?*

        (3)使用“*”限制訪問帶某 個后綴的域名。

        這里是禁止訪問admin目錄下所有htm文件,如下。

      User- agent :
*

      Disallow :/admin/* .htm網(wǎng)站式新聞動態(tài)
本文地址:http://m.heisem.cn/article/8156.html
?