搜狗微信搜索订阅号及公众号，搜狗微信搜索订阅号及公众号宝妈( 三 ) _生活百科

用脚本表示为：
keywords字段：关键词字段，该字段是用脚本处理的，由于关键词字段仅是频道脚本中的局部变量，且后期页面均没有出现，所以需要将关键词字段赋值在全局变量中，才能在数据抽取时将关键词字段提取出来，此处将其赋值与全局变量title 。
同理，数据表中需要采集当前数据在第几页出现，而页面数据同样为翻页模板中的局部变量，后面模板无法提取，所以需要将当前翻页脚本中的页数记录在全局变量中，同样将页数记录在title中以“#”与关键词分隔。
当前数据出现在某页第几行，页码已经记录在全局变量title中，链接抽取中当前链接行数也是唯一出现的局部变量，同样需要记录才能传值，于是将行数也赋值在title中以“*”与页码分隔。
所以最终记录在title中的值包含以下部分：
对于keywords字段来说，取出全局变量title中“@”左边部分即可。
page字段：页码，同keywords字段，取全局变量title中“@”和“#”中间部分。
【搜狗微信搜索订阅号及公众号，搜狗微信搜索订阅号及公众号宝妈】raw字段：行数，同keywords字段，取全局变量title中“#”和“*”中间部分。
gettime字段：网页采集时间，采集内容选择【时间信息】-【网页获取时间】
url字段：网页地址，采集内容选择【网页信息】-【网页地址】
web字段：网站名，脚本返回“微信公众号” 。
author字段：查看页面源码，打开浏览器中该页面，点击F12，点击指针按钮，如下图所示，用指针按钮选中作者，这时在右侧出现对应源码内容。说明城市分类链接在【id=js_name】的节点下。
temp_name字段：模板名称，采集内容选择【采集任务信息】-【任务名称】
脚本如下图所示:
⑤以上完成全部字段配置，效果预览如下：
如果采集预览有字段显示异常，可以将爬虫中的模拟浏览器版本设置为：IE浏览器9，如下图所示，之后再尝试。
如果采集预览异常，可打开前嗅官网，咨询技术支持。
三.采集步骤
模板配置完成，采集预览没问题后，可进行数据采集。
①首先要建立采集数据表：
选择【数据建表】，点击【表单列表】中该模板的表单，在【关联数据表】中选择【创建】，表名称自定义，这里命名为wenzhang（注意命名不能用数字和特殊符号），点击【确定】。
创建完成，勾选数据表。
②选择【数据采集】，勾选任务名称，点击【开始采集】，则正式开始采集。
③可以在【数据浏览】中，选择数据表查看采集数据，并可以导出数据。
四.课后回顾
GetSearch()：返回关键词列表中的关键词。
Search()：反复调用来遍历关键词列表。
FindClass(class名，标签类型，开始查找结点)：当符合条件的class名称唯一时，使用class名来查找结点。
FindName(标签名,开始查找结点)：当查找范围内，符合条件的数据标签唯一时，可以使用标签名称查找标签结点。
GetTextAll(需要获取文本的结点,使用的字符编码)：获取该html标签节点及所有子节点的可见文本。
Child：孩子频道节点。
StdUrl(base,strUrl)：链接地址绝对转化，base表示基链接地址，strUrl表示待转化链接地址。
Right(flag)：返回字符串右边的字符串，flag表示所取长度或起始字符(串) 。
Left(flag)：返回字符串右边的字符串，flag表示所取长度或起始字符(串)
Middle(pos,len)：返回字符串的中间字符串，pos表示起始位置或起始字符(串) ， len表示所取长度或终止字符(串) 。

搜狗微信搜索订阅号及公众号，搜狗微信搜索订阅号及公众号宝妈( 三 )

相关经验推荐

核桃是发物吗尿毒症可以吃核桃吗

麝香鼠养殖有什么环境要求

鼓浪屿适合什么季节去鼓浪屿什么季节去旅游好

投币洗衣机在哪里买的投币洗衣机哪个牌子好

马口鱼是什么鱼种？马口鱼属于哪种，看完一切都明白

亿万星辰不及你电视剧演员表亿万星辰不及你剧情介绍

冬日润燥祛湿，试一试南北杏银耳瘦肉汤~

灵芝煮水要煮多久

质量|开动漫休闲馆有哪些运营技巧？

YY情侣个性签名

用水抄白菜多久

生完孩子后血压一直低怎么办生完孩子后血压低怎么办呢

airpods3|奉劝大家先别着急买！airpods3对比airpodsPro，谁更值得入手

《蚁人3》预告被骂！特效太多太假，整个就是一堆垃圾

2021年湖南省中小学暑假放假时间 2023年湖南中小学暑假时间表

乐圣是谁

漫画家|不同漫画家打开《假面骑士圣刃》，呈现出的画风是不同的，信吗？

蓝莓浆果的功效与作用吃蓝莓浆果的好处

上海肿瘤医院排名？上海肿瘤医院排名第几

脾虚气虚食疗方法脾气虚食疗有哪些方法