Question

我有一个需要抓取的2600多个URL列表，但是在开发Spider的过程中，我只使用115，每次运行Spider时，我得到的结果都是混合的。.（不更改代码）只有1个URL当我独自爬行时，可以按预期返回。但是当我在115列表中运行它时，搜寻器会抛出异常

我正在寻找一个特定的标签来捕获字符的字母数字列表..在大多数情况下，它始终可以在javascript标签中使用，并且对大多数URL都适用，但是事实并非如此，所以我有一个两种查找方法的组合，尝试查找我需要的信息的不同部分。

使用即时消息将所有标签与所需的数据拉在一起，然后循环获取所需的文本。
使用汤，我找到了javascript标签，并通过解析来寻找我需要的1个关键值，而该值并不总是100％

具有打开和关闭结果的网址是这个 https://www.dickssportinggoods.com/p/coleman-2-burner-propane-camp-stove-15colu2brnrstvxxxcac/15colu2brnrstvxxxcac？

在尝试抓取页面之前，我可以启用或更改哪些设置以允许更长的页面加载时间？

这是我在settings.py文件中启用并配置的内容

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 2
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 20
# The average number of requests Scrapy should be sending in parallel to
# each remote server
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

我正在寻找并期望“部件号”，但出现如下错误：

jvscript = soup.select_one('#skuDescriptivattribute').text
AttributeError: 'NoneType' object has no attribute 'text'

为什么列表中有一部分网址不会被我的网址抓取，而是单独完成呢？

0 个答案: