网站内容被采集技术层面处理方法


网站内容被采集技术层面处理方法

文章插图

一、优化层面
1、在更新网站内容时 , 添加一些能代表自己的内容 , 例如“XXX网提示” “XXX提醒” , 还有就是将品牌词变换下 , 例如“大兵SEO博客”可变换成“daBING了解”“DA兵知道”等 , 别人采集你的内容在没有及时修改的情况下 , 你就可以把这些作为证据向搜索引擎进行反馈 , 反馈自己的原创内容被别人采集抄袭了 。
没有实质证据的情况下 , 搜索引擎也不好怎么处理 , 你说你是原创 , 但别人也可以说是他是原创 , 如果你说更新时间可以证明 , 但内容更新时间是可以修改的 , 所以这个是不能作为证据的 。
2、还有一个方法是给内容插图加入水印 , 增加别人采集抄袭的时间成本 。
二、技术层面
一般网站都会设置最新内容更新栏目 , 这样采集者采集的内容都是最新而且还是没有收录的内容 , 所以我们需要考虑不让最新内容被采集到 , 等最新内容被搜索引擎收录后 , 再更新出来 , 这样别人采集的意义就不到了 , 设置方法如下所示:
1、首页延时更新 , 不要将首页设置成实时更新或固定时间段更新 , 我们网站把搜索蜘蛛养起来以后 , 首页更新频率就不用那么快了 , 例如新浪、网易那些大权重平台网站首页长时间都是不更新的 。
2、延时更新 , 并不代表不更新 , 只要我们将最新内容链接地址做成sitemap主动推送经搜索引擎 , 就不需要考虑搜索引擎不会不来抓取我们网站了 。
3、限制栏目分页数 , 一般5~10页足够了 , 没有人会有这个时间去翻你网站几十页后面的内容 , 正常用户进入你网站都是有需求 , 例如百度经验栏目分页限制为3页 , 而且还不是最新内容 。
4、限制用户列表页内容展示量
5、列表页内容链接尽可能设置成无规则排序 , 如果你的网站列表页内容是按照有规律递增进行排序的 , 采集者不需要找到你网站最新内容入口就可以采集到你网站的最新内容 , 可以设置成百度最近一周收录排序到网站最新内容列表里 。
举例: htt ps://jin gyan.baidu.com/article/1.html
htt ps://jin gyan.baidu.com/article/2.html
以此类推
htt ps://jing yan.baidu.com/article/99999999.html
例如爱奇艺、腾讯视频链接就是无规则排序 , 这就导致他们视频内容就很难被采集 。
如果你的站是新站 , 不建议使用上方法 , 等搜索蜘蛛抓稳定了 , 就可以使用以上方法了 。
网站内容被采集技术层面处理方法也就以上这些了 , 但也不能完全避免网站被采集 , 有些采集者甚至用代理IP抓相关内容爬搜索结果页来采集你网站内容 。
注意:动态程序网站也可设置调用前几天更新的内容 , 但必须提前做好sitemap文件和api推送 。
【网站内容被采集技术层面处理方法】 限制IP的方法步骤这里就不详细讲解了 , 百度上都有 , 搜索一下就全出来了 。

    相关经验推荐