爬蟲robots,robots協(xié)議怎么寫?網(wǎng)站的robots協(xié)議在哪里查看
全文介紹什么是爬蟲robots,robots協(xié)議怎么寫,網(wǎng)站的robots協(xié)議在哪里查看,robots協(xié)議的具體內(nèi)容,及robots示例解說,Robots協(xié)議中的其它語法屬性
全文介紹什么是爬蟲robots,robots協(xié)議怎么寫,網(wǎng)站的robots協(xié)議在哪里查看,robots協(xié)議的具體內(nèi)容,及robots示例解說,Robots協(xié)議中的其它語法屬性
全文介紹什么是爬蟲robots,robots協(xié)議怎么寫,網(wǎng)站的robots協(xié)議在哪里查看,robots協(xié)議的具體內(nèi)容,及robots示例解說,Robots協(xié)議中的其它語法屬性
50元付費解決Robots.txt? 看完本文本還不知道Robots.txt怎么寫.50元專人幫你解決
robots是網(wǎng)站跟爬蟲間的協(xié)議,用簡單直接的txt格式文本方式告訴對應(yīng)的爬蟲被允許的權(quán)限,也就是說robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。
用幾個最常見的情況,直接舉例說明:
User-agent:指定對哪些爬蟲生效
Disallow:指定要屏蔽的網(wǎng)址
Allow:允許爬行的網(wǎng)址
例:禁止谷歌收錄本站,
User-agent: Googlebot
Disallow:
例:禁止所有收錄本站:
User-agent: *
Disallow: /
例:允許所有蜘蛛爬行所有
直接為空
User-agent: 這里的代表的所有的搜索引擎種類,*是一個通配符。
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄。
Disallow: /mahaixiang/*.htm 禁止訪問/mahaixiang/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /? 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址。
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片。
Disallow:/mahaixiang/abc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /mahaixiang/ 這里定義是允許爬尋mahaixiang目錄下面的目錄。
Allow: /mahaixiang 這里定義是允許爬尋mahaixiang的整個目錄。
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片。
Sitemap: /sitemap.html 告訴爬蟲這個頁面是網(wǎng)站地圖。
版權(quán)所有:深圳市網(wǎng)商在線科技有限公司
友情鏈接: