https://weixin.sogou.com/weixin?type=2&s_from=input&query=关键词
②得到关键词链接拼接规则后,开始配置关键词搜索:
点击屏幕右下角【高级配置】,将采集地址填写到【请求地址】中,点击【+】添加一个参数 , 名称可以自定义,此项配置是用于后期脚本能将关键词从关键词列表中取出 , 配置完成点击【确定】即可 。
将参数类型选择为检索关键词,点击保存 。
③由于本模板是以关键词搜索为入口,所以在【模板抽取配置】选择频道(即任务名称),选择【脚本窗口】 , 将关键词搜索配置在频道处即可 。
④具体配置脚本如下:
添加一个或多个关键词,并保存,如下图所示 。(多个关键词用英文;隔开)
⑤效果预览:
在【关键词列表】中填写关键词,点击【保存】,点击【采集预览】 , 即可看到配置效果 。
如果采集预览异常,可打开前嗅官网,咨询技术支持 。
3.翻页配置
关键词配置完成,下一步是获取关键词搜索结果中的全部翻页链接 。
①同样选择【脚本窗口】,配置翻页脚本 。
②对关键词搜索出的网页翻页,观察网页地址的变化 。
https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8第二页
https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=3&ie=utf8第三页
发现翻页链接是在原地址中增加了“&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8”部分,随着页码的改变,仅有page参数的值在变化 。page为页码的配置参数,其它不变部分,直接拼接在链接中即可 。
③具体配置脚本如下:
④效果预览:
如果采集预览异常,可打开前嗅官网,咨询技术支持 。
4.链接抽取
这一步是在获取的翻页链接中,提取每页全部微信文章的链接:
①在原有模板基础上,右键选择【添加模板】,并新建一个链接抽?。缦峦妓荆?
②查看页面源码,打开浏览器中该页面,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的文章链接,这时在右侧出现对应源码内容 。说明城市分类链接在【target=_blank】节点下 。
③经过观察发现,我们要找的是【target=_blank】节点中的href,【target=_blank】节点是【class=news-list】的子节点中,名为【h3】的节点的子节点 。
④具体配置脚本如下 , 配置好脚本后点击右上角【保存】 。
⑤.采集预览如下所示:
如果采集预览没有出来,可以打开前嗅官网,咨询技术支持 。
5.数据抽取
①链接抽取完成进入数据页,在原有模板基础上,右键选择【添加模板】 , 新添加的模板,右键【添加数据抽取】 。
②此时要完成数据建表的工作:选择【数据建表】,点击【采集数据表结构】中的【+】,即可添加数据表,名称可以自定义 。
③数据表配置完成,选择【数据抽取】右侧数据属性配置,表单选择刚建立的“微信公众文章”数据表,则可看到表单中的字段在右侧显示 。
④需要配置哪一个字段 , 点击该字段,在右侧字段属性中配置即可 , 选择脚本配置的字段,在脚本窗口中进行代码配置 。
id字段:主键字段,采集内容选择【主键】-【网页主键】,主键为当前网页的MD5值 。
title字段:脚本如下所示
content字段:
浏览器打开文章页面 , 查看页面源码,打开浏览器中该页面,点击F12,点击指针按钮,如下图所示,用指针按钮选中文章正文,这时在右侧出现对应源码内容 。说明城市分类链接在【class=rich_media_wrp】的节点下 。
相关经验推荐
- 搜狗微信文章?搜狗微信文章库
- 搜狗怎么切换繁体 搜狗怎么切换繁体字
- 微信如何更新
- 搜狗网址大全搜索 搜狗网址大全
- 搜狗联盟官网 搜狗联盟
- 打开微信时需要密码怎么设置
- 搜狗输入法安全吗,百度输入法安全吗
- 磁力搜索bt种子 搜索bt种子
- 搜索图片识别出处 搜索图片识别出处百度
- 搜索引擎优化工具?搜索引擎优化