什么是robots.txt爬虫协议,规范的robots文件怎么写( 三 )



什么是robots.txt爬虫协议,规范的robots文件怎么写

文章插图

从上图中可以看出带有start的网站目录都被robots.txt屏蔽了

什么是robots.txt爬虫协议,规范的robots文件怎么写

文章插图

上图中代表的意思是带有start的网站内容都被robots.txt屏蔽了 , 暂时屏蔽了谷歌蜘蛛索引 。
被robots指令禁止索引的内容是需要被搜索蜘蛛抓取的内容 , 那么我们只需要删除错误的robots指令即可 , 此时你需要注意此内容是否被robots文件标记为禁止索引状态 , 如果禁止索引的内容是不需要被索引的内容 , 那么就可以删除屏蔽索引指令 , 然后使用meta robots标签、x-robots HTTP头部指令进行屏蔽 , 保证此页面内容不被搜索蜘蛛索引 。
注意 , 如果你想将被屏蔽抓取的内容从禁止索引库中删除 , 首先必须要删除抓取阻碍 , 否则搜索蜘蛛是无法抓取页面内容的 。
索引但是被robots.txt屏蔽

什么是robots.txt爬虫协议,规范的robots文件怎么写

文章插图

这表示虽然有部分内容被robots.txt文件屏蔽了 , 但仍然可以被谷歌索引 。
如果你希望从搜索引擎索引库中删除该内容 , robots.txt文件指令并不是最好的办法 , 可使用meta robots标签、或者是x-robots HTTP头部指令防止页面被搜索蜘蛛索引 。
如果你是不小心将该内容屏蔽了 , 并且希望该内容重新被搜索引擎索引 , 只需要在robots.txt文件中删除相关指令就行了 , 这样就可以让该内容展示在搜索引擎中了 。
FAQs
以下是站长朋友们经常问的问题 , 如果下方问题并没有包含你所需要解答的问题 , 欢迎大家在下方评论区别留下你的问题 , 大兵会及时给大家解答 。
1)robots.txt文件大小最大为多少?
约为500 千字节 。
2)WordPress中的robots.txt在哪里?
robots.tx文件在网站根目录下 , 例: 域名.com/robots.txt.
3)如何在Wordpress当中编辑robots.txt?
你可以手动编辑该文件 , 也可以使用WordPress相关插件编辑robots.txt文件 , 直接在WordPress后台就可以编辑 。
4)如果robots.txt文件屏蔽了不想被禁止索引的页面有哪些影响?
robots.txt文件屏蔽了不想被禁止索引的页面的影响 , 要看屏蔽时间的长短 , 时间长则影响大 , 时间短则影响小 , 最后我们只需要改正错误的robots指令即可 。
5)noindex标记谷歌搜索是否可以识别?
谷歌搜索虽然没有明确表示可以识别此标签 , 但如果此页面你不想被搜索蜘蛛索引 , 你可以将noindex标签放在页面中 , 这样谷歌识别出了这个标记 , 就不会收录该页面 。
最后的想法
【什么是robots.txt爬虫协议,规范的robots文件怎么写】 robots.txt文件虽然看上去简单 , 但却是最容易出错的 , 一旦出错对网站SEO优化的影响将是非常严重的 , 甚至造成这个网站直接废掉 。

相关经验推荐