必应下拉框【下拉老品牌64xl.com】,利用 Python 爬取京东商城的详细方法与步骤

2024-08-16
来源:网络整理

下拉神器是一款专业的下拉词平台,提供各种下拉功能:百度下拉丶360搜索下拉丶必应搜索下拉丶哔哩哔哩下拉丶抖音下拉等等,里面还有批量做词教程技术,可以一次性做10-50个词,省心高效!批量做词,批量出词,可以实现霸屏效果   

有的客户想删除下拉,但是百度不受理,就可以使用批量做词霸屏技术,实现把那些负面信息顶下去,顶掉的效果=删除效果!欢迎您前来使用!新手不懂使用,请多看2遍视频教程哦!下拉神器100%有效果的!   

给大家看一个下拉神器介绍的视频,看完后,点击下面的按钮进入”下拉神器“     

欢迎使用下拉神器,下拉行业老品牌,如果下拉神器都不好使,整个行业其他平台一样不好使,但是大家一定要多学习多看教程,先学会做词出词的技巧!

    




下一篇文章内容预览:


前言

本文主要介绍了爬取京东的方法,文章介绍的很详细,我们一起来看看详细的介绍吧。

主要工具

分析步骤

1、打开京东首页,输入裤子,你会看到页面跳转到这里,这是我们分析的切入点。

2.我们可以看到这个页面并不完整,下拉的时候会看到图片在不断的加载,这就是ajax。但是下拉到最下面的时候我们会看到整个页面已经加载了60条裤子的信息,打开调试工具搜索页面元素可以看到每条裤子的信息都在

该标签如下图所示:

3.然后我们打开网页源码,发现网页源码里只有前30条数据,后30条数据的数据找不到,所以我们会想到ajax这种异步加载方式,所以我们要开始抓包,我们打开后按F12,点击上面的,然后点击XHR,这个比较容易找到,我们开始抓包吧,如下图:

4.从上面我们找到了请求的URL,发现有一段很长,我们试着去掉一部分看看能不能打开,简化后的URL={0}&s=26&=y&pos=30&={1}

这里是裤子的id,page是要翻的页面,可以看到我们只需要改两个地方就可以打开不同的网页,这里的page很好找,你会发现一个很有意思的东西,就是主网页的page是奇数,但是异步加载的网页里的page是偶数,所以这里只需要填偶数就可以了,但是填奇数也是可以访问的,这里是id,我们可以在页面的源码里找到,通过搜索可以看到id就在li标签的data-pid里,具体看下图

现在我们知道如何找到参数,我们就可以开始编码了。

代码解释

1、首先我们需要获取网页源代码,这里我用的是库,安装方式是pip,代码如下:

def(自我):

res = .get(self.url,=self.)

html = res.文本

html#返回源代码

2、根据上面的分析,第二步就是获取异步加载的URL中的参数,也就是li标签中的data-pid,代码如下:

京东下拉词_京东下拉词_京东下拉词

def(自我):

html = 自身.()

soup = (html,'lxml') # 创建一个对象

lis = soup.("li",='gl-item')#查找li标签

对于 liin lis:

= li.get("data-pid")#获取li标签下的data-pid

如果 ():

self.pids.add()#这里self.pids是一个集合必应下拉框【下拉老品牌64xl.com】,利用 Python 爬取京东商城的详细方法与步骤,用于过滤重复项

3.接下来就是获取前30张图片的URL,也就是主网页上的图片。其中有一个问题是img标签的属性不太一样,也就是源码中并不是所有的img都有src属性京东下拉词,一开始已经加载过的图片都是src属性,但是没有加载过的图片都是data-lazy-img,所以这个需要在解析页面的时候讨论。

代码如下:

10

11

12

十三

14

15

16

def(自我):

html = 自身.()

汤 = (html,'lxml')

divs = soup.("div",='p-img')#图片

京东下拉词_京东下拉词_京东下拉词

# = 汤。(“div”,='p-')#价格

对于 div:

= div.find("img").get('data-lazy-img')#获取未加载的url

= div.find("img").get("src")#获取加载的url

如果 :

自我.sql.()

自我..添加()

如果 :

自我.sql.()

自我..添加()

前三十张图片已经找到了,现在我们要找后三十张图片,当然需要请求异步加载的URL,所需的参数我们已经找到了,现在很简单,直接贴代码就行:

10

11

12

十三

14

15

16

17

18

def(自我):

京东下拉词_京东下拉词_京东下拉词

#self.=self.+','.join(self.pids)

self.= self..(str(self.),','.join(self.pids))#对url进行拼接,将得到的单数拼接到url中,url中的id之间是用','分隔的,所以需要对集合中的每个id进行拆分,page为偶数,这里就用主网页的page加一即可。

自己。

html=.get(self., =self.).text#请求

汤 = (html,'lxml')

=汤。(“div”,='p-img')#解析

为了 :

= div.find("img").get('data-lazy-img')#这里可以看到单独查找img属性

= div.find("img").get("src")

if :#如果是 data-lazy-img

self.sql.()#存储到数据库

self..add()#使用集合去掉重复项

if :#如果是src属性

自我.sql.()

自我..添加()

4.通过上面就可以爬取了,不过还是要考虑速度问题。这里我用了多线程,直接每个页面开一个线程。速度还是可以的。感觉这个速度还可以。几分钟就解决问题了。一共爬取了100个网页。这里的存储方式是数据库存储,要用Fao库京东下拉词,具体自己百度一下。

当然你可以使用它,但是我还没有学会。如果你想要源代码,请看下面:

扩展摘要

这里可以看到搜索首页的URL和wq就是你输入的单词,如果你想爬取更多的信息,你可以把这两个单词改成你想搜索的单词。只要写上汉字,请求的时候它会自动帮你编码。我也试过了,可以爬取源代码。如果要连续爬取的话,可以把需要搜索的单词写在文件中,然后从文件中读取。以上只是一个普通的爬虫,没有用到任何框架,接下来我会写一个带框架的爬虫,请继续关注服务器首页!!!

好了以上就是本文的全部内容了,希望本文的内容能对大家的学习或者使用带来一些帮助,如果还有疑问可以留言交流,感谢大家对服务器之家的支持。

原文链接:

分享