什么是robots.txt爬虫协议,规范的robots文件怎么写( 二 )


/designer-dresses/
/delivery-information.html
/depeche-mode/t-shirts/
/definitely-not-for-public-viewing.pdf
以上这种问题我们只需要多加一个斜杠就行了 , 如下方所示:
User-agent: *
Disallow: /de/
使用注释给开发者提供说明
注释功能可以向开发者说明robots.txt文件指令的作用 , 如下方所示:
# This instructs Bing not to crawl our site.
User-agent: Bingbot
Disallow: /
搜索蜘蛛会忽略所有以“#”井号开头的robots.txt文件指令 。
针对不同的子域名使用不同的robots.txt文件
robots.txt文件只限于当前根目录域名所使用 , 如果你需要设置其它的域名的robots.txt文件规则 , 那么就需要设置多个robots.txt文件规则 。
例如 , 当前主站域名为www.zhuzhouren.cn , 而你的博客二级域名为blog.zhuzhouren.cn , 那么这种情况就需要设置多个robots.txt文件 , 一个放在主站根目录下 , 一个放在博客网站根目录下 。
Robots.txt文件示例
下面的robots.txt文件示例 , 主要是给站长们一些参考 , 如果这些robots.txt文件指令正好与你要求一样 , 那么你可以将以下robots指令复制粘贴到txt文件中 , 将其另存为robots.txt文件上传至网站根目录中 。
以上robots指令代表的意思是允许所有搜索蜘蛛访问网站所有页面:
User-agent: *
不允许任何搜索蜘蛛抓取网站任何页面
User-agent: *
Disallow: /
禁止所有搜索蜘蛛抓取/folder/这个目录 。
User-agent: *
Disallow: /folder/
禁止所有搜索蜘蛛抓取/folder/这个目录 , 但保留/folder/目录下page.html这个页面可以抓取 。
User-agent: *
Disallow: /folder/
Allow: /folder/page.html
禁止所有搜索蜘蛛抓取this-is-a-file.pdf这个文件
User-agent: *
Disallow: /this-is-a-file.pdf
禁止所有搜索蜘蛛抓取网站pdf文件
User-agent: *
Disallow: /*.pdf$
禁止谷歌蜘蛛抓取带参数的url页面 。
User-agent: Googlebot
Disallow: /*?
如何检测robots.txt文件中的问题?
robots.txt文件是非常容易出错的 , 所以对robots.txt文件的校验也是非常有必要的 , 下面大兵来给大家讲讲robots.txt文件常见错误 , 包括robots文件指令的含义及解决办法:
检验网站某个目录页面是否有错误 , 你可以将robots.txt文件中屏蔽的目录或文件放入Search Console(谷歌资源管理器)的URL Inspection tool(网址检测) , 如果显示被robots.txt文件屏蔽了 , 就如下方所示:

什么是robots.txt爬虫协议,规范的robots文件怎么写

文章插图

国内用户使用百度站长平台也可以进行检测 , 如下图所示:

什么是robots.txt爬虫协议,规范的robots文件怎么写

文章插图

显示该目录被robots.txt屏蔽了 , 如下图所示:

什么是robots.txt爬虫协议,规范的robots文件怎么写

文章插图

上图中意味着此链接在Sitemap文件当中 , 至少有一条url链接被robots.txt屏蔽了 。
如果你的网站地图sitemap文件是正确的 , 页面中并不包含canonicalized、noindexed、redirected等标签 , 而且你所提交的sitemap文件链接没有被robots.txt屏蔽 , 如果检测这个页面链接确实被屏蔽了 , 那么就需要检查被屏蔽的页面 , 再调整robots.txt文件 , 删除相应的robots指令 。
检测网站目录有没有被屏蔽 , 你可以使用谷歌的robots.txt检测工具和百度站长平台robots文件检测工具来检测robots指令 , 在修改robots指令的时候也需要特别小心 , 因为你的修改会影响网站其它目录页面或文件 。

相关经验推荐