如何避免大量重复URL被百度收录


如何避免大量重复URL被百度收录

文章插图
很多同学会有这样的疑惑, 索引量工具显示索引量数值很高但流量总也上不去, 也没有发现我们站内有低质内容, 百度这是要闹哪样?6月中旬, 艺龙SEO负责人刘明给我推荐了他写的文章《如何避免大量URL重复收录》, 找到了索引量高流量低的一个原因并给出的解决方案 。 另外, 如果各位同学还有工作经验等内容想分享、或者对已有内容持相反意见者, 欢迎给站长学院投稿 。
首先声明, 我们只谈论有检索意义的URL, 也就是用户会从搜索引擎查找的页面 。 其他页面按照常用的方法做屏蔽就好了 。 鉴于很多站长都爱讨论整体的收录量, 我必须泼一下冷水, 也许你的有效收录是1/10 。
URL参数
也叫URL query, 是一个最复杂, 最容易被忽视, 最容易被妥协的问题 。 他是网站运营中必不可少的元素, 如果简单的去除, 其他部门就无法工作了 。 静态化是的话题, URL参数经常被用于以下几方面:
同一个实体的不同状态展示, 比如同一个酒店, 在不同时间点会有不同的房间库存:http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
为了统计不同渠道的流量:http://www.a.com/?tracking=website_a
为了统计不同渠道, 具体模块的点击量:http://www.a.com/?tracking=website_a&click_spot=zone_abc
调试:http://www.a.com/product/item123/?debug=true
【如何避免大量重复URL被百度收录】 全世界最奇葩的是亚马逊, 居然把统计参数放到了路径中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1
出现这种问题的坏处有几点:
1. 浪费搜索引擎对你网站的各项配额, 从而影响其他正常的页面 。
2. 丢失很多本应拿到的链接加分, 站外渠道的链接往往是最优质的 。 同一个URL的分值可能分散成几十份 。
3. SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道, 而且被收录被点击)
4. 往往形成一种局面, 产品用一套URL, SEO用另一套URL, 甚至不同渠道用不同的URL, 后期开发和维护的成本极高 。
为了解决这个问题, 首先要弄清URL的定义 。 以我的理解, 每一个URL是一个静态的、独立不重复的、有意义的实体, 一般也有检索意义(就是有人会搜) 。 比如一个人、一辆车、一条道路、一个零件 。 而不能混入各种"状态", 比如这个人生病的时候, 难道就不是他自己了么? 一件商品在促销的状态难道是另一件商品了么?
理论上canonical标签就可以解决这个问题了, 但是从实际测试结果看, 百度对这个标签的支持优先级非常低, 几乎可以忽略不计 。 那么我的解决方案是这样的:
1. 建立好网站的思维导图和元信息 。 (可参考:SEO健康度 )
2. 所有和SEO元信息相关的参数都放到路径中去
3. 所有和SEO元信息不相干的参数都放到#后边, 因为#后边不影响web服务器返回的内容 。 简单的说就是用"#"替代"?" 。
4. 每个页面中都利用js获取#后边的参数对, 通过二次请求发回给统计服务器
5. 如果#后边的参数影响页面内容, 比如酒店的入住日期 。 那么这部分内容用ajax加载就行, 他是不稳定的, 不属于页面内容的一部分 。 (当然还有变通的办法, 暂不赘述 。 )
6. 原始的#锚点定义肯定会冲突, 定义一个#后边的变量, 并用js控制屏幕滚动, 来保证原始锚点的作用 。
有人可能会想到, 根据ua判断, 如果是搜索引擎爬虫, 就用跳转的方式去掉URL参数 。 但效率最高的方法必然是从一开始就不展示错误URL 。 那么前面的例子优化后就变成了:

相关经验推荐