用脚本表示为:
keywords字段:关键词字段,该字段是用脚本处理的,由于关键词字段仅是频道脚本中的局部变量 , 且后期页面均没有出现 , 所以需要将关键词字段赋值在全局变量中,才能在数据抽取时将关键词字段提取出来,此处将其赋值与全局变量title 。
同理 , 数据表中需要采集当前数据在第几页出现,而页面数据同样为翻页模板中的局部变量,后面模板无法提取 , 所以需要将当前翻页脚本中的页数记录在全局变量中,同样将页数记录在title中以“#”与关键词分隔 。
当前数据出现在某页第几行,页码已经记录在全局变量title中,链接抽取中当前链接行数也是唯一出现的局部变量,同样需要记录才能传值,于是将行数也赋值在title中以“*”与页码分隔 。
所以最终记录在title中的值包含以下部分:
对于keywords字段来说,取出全局变量title中“@”左边部分即可 。
page字段:页码,同keywords字段,取全局变量title中“@”和“#”中间部分 。
【搜狗微信搜索订阅号及公众号,搜狗微信搜索订阅号及公众号宝妈】raw字段:行数,同keywords字段,取全局变量title中“#”和“*”中间部分 。
gettime字段:网页采集时间 , 采集内容选择【时间信息】-【网页获取时间】
url字段:网页地址,采集内容选择【网页信息】-【网页地址】
web字段:网站名,脚本返回“微信公众号” 。
author字段:查看页面源码,打开浏览器中该页面,点击F12,点击指针按钮 , 如下图所示,用指针按钮选中作者,这时在右侧出现对应源码内容 。说明城市分类链接在【id=js_name】的节点下 。
temp_name字段:模板名称,采集内容选择【采集任务信息】-【任务名称】
脚本如下图所示:
⑤以上完成全部字段配置,效果预览如下:
如果采集预览有字段显示异常,可以将爬虫中的模拟浏览器版本设置为:IE浏览器9,如下图所示,之后再尝试 。
如果采集预览异常,可打开前嗅官网,咨询技术支持 。
三.采集步骤
模板配置完成,采集预览没问题后,可进行数据采集 。
①首先要建立采集数据表:
选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为wenzhang(注意命名不能用数字和特殊符号),点击【确定】 。
创建完成,勾选数据表 。
②选择【数据采集】,勾选任务名称,点击【开始采集】 , 则正式开始采集 。
③可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据 。
四.课后回顾
GetSearch():返回关键词列表中的关键词 。
Search():反复调用来遍历关键词列表 。
FindClass(class名,标签类型,开始查找结点):当符合条件的class名称唯一时 , 使用class名来查找结点 。
FindName(标签名,开始查找结点):当查找范围内,符合条件的数据标签唯一时 , 可以使用标签名称查找标签结点 。
GetTextAll(需要获取文本的结点,使用的字符编码):获取该html标签节点及所有子节点的可见文本 。
Child:孩子频道节点 。
StdUrl(base,strUrl):链接地址绝对转化,base表示基链接地址,strUrl表示待转化链接地址 。
Right(flag):返回字符串右边的字符串,flag表示所取长度或起始字符(串) 。
Left(flag):返回字符串右边的字符串,flag表示所取长度或起始字符(串)
Middle(pos,len):返回字符串的中间字符串,pos表示起始位置或起始字符(串) , len表示所取长度或终止字符(串) 。
相关经验推荐
- 搜狗微信文章?搜狗微信文章库
- 搜狗怎么切换繁体 搜狗怎么切换繁体字
- 微信如何更新
- 搜狗网址大全搜索 搜狗网址大全
- 搜狗联盟官网 搜狗联盟
- 打开微信时需要密码怎么设置
- 搜狗输入法安全吗,百度输入法安全吗
- 磁力搜索bt种子 搜索bt种子
- 搜索图片识别出处 搜索图片识别出处百度
- 搜索引擎优化工具?搜索引擎优化