应用错误收集

Python Scrapy - 没有为某些页面获取任何内容

时间：2017-07-26 20:30:25

标签： python http web-scraping scrapy scrapy-spider

我正试图从offerup.com和 scrapy shell 中获取一些信息，但没有任何结果。

我会输入：

scrapy shell https://offerup.com/

它会去那里，但如果我只是尝试获取整个网页的文字：

response.xpath('//text()').extract()

它回来了：

['Request unsuccessful. Incapsula incident ID: 623000250007296502-10946686267359632']

对于我试图获得的任何其他信息（例如标题），它没有任何回复你知道为什么会这样吗？非常感谢任何帮助。

1 个答案:

答案 0 :(得分：1)

请注意阅读visitng offerup时获得的回复。

[s]可用的Scrapy对象：

[s] scrapy scrapy模块（包含   scrapy.Request，scrapy.Selector等）

[s]履带式车辆

[s] item {}

[s]请求https：//offerup.com>

[s]响应＆lt; 403   https://offerup.com＆GT;

您收到403，禁止错误。什么都不能绕过403。

如果您尝试使用其他网站，例如http://buffalo.craigslist.org，则会给出200的OK响应。使用相同的命令将显示所需的页面，使用response.xpath('//text()').extract()将打印来自root的所有文本元素。

有些网站可能会设置防刮措施，以防止机器人占用资源。提供显然是这样一个网站。

要直接回答您的问题，您的代码功能正常，但目标网站阻止您使用它。

相关问题

Scrapy：刮取CSV文件 - 没有获得任何输出

python / scrapy用于动态内容

为什么我没有使用此scrapy爬虫获得任何结果？

Scrapy没有通过页面上的两个表获得正确的数据

Python Scrapy - 没有为某些页面获取任何内容

规范化空间不足以呈现错误呈现的内容

特定级别的div之后，Scrapy不返回任何数据

cra草不爬行任何页面

抓取抓取的网页不会返回页面内容

使用scrapy进入下一页

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？