【攻略】20行Python代码爬取王者荣耀全英雄皮肤

屁话不多说[滑稽]爬取皮肤本身并不难,难点在于分析,我们首先得得到皮肤图片的url地址,话不多说,我们马上来到王者荣耀的官网:

【攻略】20行Python代码爬取王者荣耀全英雄皮肤

文章插图
我们点击英雄资料,然后随意地选择一位英雄,接着F12打开调试台,找到英雄原皮肤的图片地址:
【攻略】20行Python代码爬取王者荣耀全英雄皮肤

文章插图
接着,我们切换一下英雄的皮肤,会发现图片地址没有明显的变化,只是最后的数字序号改变了,我们将两个皮肤图片的地址放在一起比较一下:我们将两个皮肤图片的地址放在一起比较一下:一.http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-1.jpg二.http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-2.jpg我们可以猜测,对于同一个英雄的皮肤图片地址,仅仅是最后的数字序号不同,为了证实我们的猜想,我们可以继续找出一个英雄的全皮肤图片,找一个皮肤多一点的,例如我这里找的是孙尚香,将它的所有皮肤图片地址放在一起比较:http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-1.jpghttp://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-2.jpghttp://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-3.jpghttp://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-4.jpghttp://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-5.jpghttp://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-6.jpghttp://game.gtimg.cn/images/yxzj/img2由此我们得出结论,同一个英雄的皮肤图片路径从1开始依次递增,我们再来看看不同英雄之间是如何区分的 。会发现,不管皮肤图片如何改变,浏览器上方的地址始终是不变的,所以我们将两个不同英雄的url地址放到一起比较一下:https://pvp.qq.com/web201605/herodetail/523.shtmlhttps://pvp.qq.com/web201605/herodetail/111.shtml乍一看,似乎没有什么规律,但我们要从这里发现一点,就是最后的数字其实控制的是哪个英雄,我们暂且认为它是英雄的编号,可不幸的是,英雄编号之间好像没有什么规律,不用着急,我们再到官网上找找线索 。在英雄资料界面,我们打开F12调试台,通过抓取网络请求,我发现了几个文件:
【攻略】20行Python代码爬取王者荣耀全英雄皮肤

文章插图
点击网络,然后点击XHR,就可以看到这几个文件,看到文件的名字大家应该就清楚了,这些文件存储的就是英雄列表信息,我们点击查看一下:
【攻略】20行Python代码爬取王者荣耀全英雄皮肤

文章插图
没错,这里存储的就是英雄信息,包括英雄的名字,英雄编号等等其它信息,我们可以试试这些信息的准确性,例如小乔的ename,也就是英雄编号为106,所以按照之前的想法,英雄小乔的详情地址应为:https://pvp.qq.com/web201605/herodetail/106.shtml经过尝试后发现确实如此 。到这里,准备工作就完成了,其实进行到这里,整个工程就完成了一半了,接下来就是代码的实现了 。代码实现:首先我们创建一个Python文件,然后导入os和requests模块 。按照前面的步骤,我们首先需要获取到英雄列表信息,也就是herolist.json文件,文件地址为:https://pvp.qq.com/web201605/js/herolist.json,这在调试台中可以找到 。那么我们首先就要通过这个地址获取到英雄列表信息的json数据,然后解析json数据,将有用的信息提取出来:url = 'https://pvp.qq.com/web201605/js/herolist.json'herolist = requests.get(url)# 获取英雄列表json文件herolist_json = herolist.json()# 转化为json格式hero_name = list(map(lambda x: x['cname'], herolist.json()))# 提取英雄的名字hero_number = list(map(lambda x: x['ename'], herolist.json()))# 提取英雄的编号这样我们就获取到了英雄名字和编号,可以输出测试一下:拿到了英雄编号之后,事情就变得很简单了,只需拼接一下url地址即可:http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + hero_number + '/' + hero_number + '-bigskin-1.jpg,这样可以获取到所有英雄的皮肤图片了,但是这里会有一个问题,英雄的皮肤是有多有少的,有的英雄只有两个皮肤,有的却有六七个,所以图片编号的最大值我们并不清楚,这里我采用了一个比较笨的办法,就是让一个变量从1到10依次递增去拼接图片地址,如果遇到没有的图片我们就不处理,因为没有一个英雄的皮肤超过了10个,所以我们就能获取到所有的图片了 。下面看代码实现:# 下载图片def downloadPic():i = 0for j in hero_number:# 创建文件夹os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])# 进入创建好的文件夹os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])i += 1for k in range(10):# 拼接urlonehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(j) + '-bigskin-' + str(k) + '.jpg'im = requests.get(onehero_link)# 请求urlif im.status_code == 200:open(str(k) + '.jpg', 'wb').write(im.content)# 写入文件实现非常地简单,代码注释也已经写得很清楚了,有了这个函数之后,我们只需调用一下,就可以下载图片了,整个程序的完整代码如下:import osimport requestsurl = 'https://pvp.qq.com/web201605/js/herolist.json'herolist = requests.get(url)# 获取英雄列表json文件herolist_json = herolist.json()# 转化为json格式hero_name = list(map(lambda x: x['cname'], herolist.json()))# 提取英雄的名字hero_number = list(map(lambda x: x['ename'], herolist.json()))# 提取英雄的编号# 下载图片def downloadPic():i = 0for j in hero_number:# 创建文件夹os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])# 进入创建好的文件夹os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])i += 1for k in range(10):# 拼接urlonehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(j) + '-bigskin-' + str(k) + '.jpg'im = requests.get(onehero_link)# 请求urlif im.status_code == 200:open(str(k) + '.jpg', 'wb').write(im.content)# 写入文件downloadPic()除去注释,接近20行的代码我们就完成了王者荣耀全英雄皮肤的爬取,是不是非常简单呢?我们可以测试一下这个程序,首先要在桌面上创建一个文件夹,名为wzry,因为这里的代码我已经写死了,如果要修改的话大家也可以进行修改,文件夹创建完成后点击运行即可,等待片刻,图片就全部下载完成了 。

相关经验推荐