为什么列表中有一部分网址不会被我的网址抓取,而是单独完成呢?

时间:2019-04-29 13:36:52

标签: python beautifulsoup scrapy

我有一个需要抓取的2600多个URL列表,但是在开发Spider的过程中,我只使用115,每次运行Spider时,我得到的结果都是混合的。.(不更改代码)只有1个URL当我独自爬行时,可以按预期返回。但是当我在115列表中运行它时,搜寻器会抛出异常

我正在寻找一个特定的标签来捕获字符的字母数字列表..在大多数情况下,它始终可以在javascript标签中使用,并且对大多数URL都适用,但是事实并非如此,所以我有一个两种查找方法的组合,尝试查找我需要的信息的不同部分。

  1. 使用即时消息将所有标签与所需的数据拉在一起,然后循环获取所需的文本。

  2. 使用汤,我找到了javascript标签,并通过解析来寻找我需要的1个关键值,而该值并不总是100%

具有打开和关闭结果的网址是这个     https://www.dickssportinggoods.com/p/coleman-2-burner-propane-camp-stove-15colu2brnrstvxxxcac/15colu2brnrstvxxxcac

在尝试抓取页面之前,我可以启用或更改哪些设置以允许更长的页面加载时间?

这是我在settings.py文件中启用并配置的内容

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 2
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 20
# The average number of requests Scrapy should be sending in parallel to
# each remote server
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

我正在寻找并期望“部件号”,但出现如下错误:

jvscript = soup.select_one('#skuDescriptivattribute').text
AttributeError: 'NoneType' object has no attribute 'text'

0 个答案:

没有答案