如何避免大量重复URL被百度收录( 二 )


http://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10
http://www.a.com/#tracking=website_a
http://www.a.com/#tracking=website_a&click_spot=zone_abc
http://www.a.com/product/item123/#debug=true
其实很多网站早就使用这种方式了, 但是还有很多网站由于开发效率无法及时实现 。 所以对于一般的小网站, 一定要考虑开发成本, 不要轻易冒进 。 只要能避免问题的发生, 变通的方法是很多的 。
路径中使用非必要元素
很多网站仿照亚马逊的做法, 把商品名体现在URL中, 然后再通过id来决定页面展示的内容:http://www.amazon.cn/博集典藏馆043?基督山伯爵-亚历山大?仲马/dp/B005TZHJEQ/
这样虽然可以提高一些相关性, 但是很危险 。 在长期甚至短期的时间内, 大量商品的名称是非常可能有变化的, 那么URL也就跟着变化 。 成本也是非常高的, 因为加大了技术实现难度, 不管从站内还是站外, 每次增加链接都是一个很麻烦的事情 。
在我接手艺龙SEO之前, URL被全部改成了这样, 对我早期的工作造成了非常巨大的负担:http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次(日志分析方法可参考SEO健康度) 。 细致调查后发现, 从SEO拼接规则到后台的汉字和翻译数据被一直修改 。 也就是说, 这个URL相关的元素有:
1. 中文 (非必要元素)
2. 由中文翻译的英文 (非必要元素)
3. id (必要元素)
而当时负责SEO的同事把英文和id拼接在了URL中, 那么这样一个URL先后变成过:
http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
http://www.a.com/Xianggelila_International_Hotel-12345678-hotel/
http://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/
http://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/
跟"相关性"比, URL的唯一性和稳定性更重要 。 所以针对这个问题, URL的最佳策略应该是:http://www.a.com/hotel/12345678/
如果这个id是隶属于一个分类下的, 比如城市, 那么就可以是:http://www.a.com/hotel/beijing/123/
从技术角度说, id一般是数据库的primary key, 可以是数字也可以是字符串, 那么这个时候URL是一维的; id也可以是联合的唯一索引, 那么URL就是二维的, 就像上面的(bejing, 123)缺一不可 。 电商类网站列表页经常用到三维以上 。
大小写
如果网站的技术架构用的是开源系统, 一般是不会有这个问题的 。 如果使用了微软的技术架构, 这个问题非常常见:
http://www.a.com/newyork/
http://www.a.com/Newyork/
http://www.a.com/NewYork/
我的建议是统一使用小写, 大写自动跳转为小写(小心301死循环!) 。
目录的规范
很多网站同时存在这样的URL, 无形中把收录量扩大了一倍:
http://www.a.com/product/123
http://www.a.com/product/123/
上边第一个路径的意思是在product目录下有一个123文件 。 第二个路径的意思是在product目录下有一个123目录, 这个目录下可能有很多文件, 但是他代表众多文件中的index.html或index.php或default.aspx等优先级最高的那个文件 。 为了避免歧义, 我定义文件都是用".html"结尾的 。
为了减少重复收录, 那么按我的习惯是:
http://www.a.com/product/123 ?=> http://www.a.com/product/123/
http://www.a.com/product/123 ?=> http://www.a.com/product/123.html
总结
1. 所有部门统一使用SEO定义的URL, 屏蔽非SEO URL的入口 。
2. 用"#"替代"?"
3. 统一使用小写
4. 保证目录的规范
5. 把不规范的URL跳转到规范的URL

相关经验推荐