无法使用Scrapy擦除Bloomberg网站上的数据

时间:2019-06-03 14:53:32

标签: python scrapy bloom

您好,我只是想在该网站Bloomberg上刮取“标题”和“发布日期”,所以我确定我使用的是正确的response.xpath,但始终无法获取。

response.xpath("//h1[@class = 'lede-text-v2__hed']").extract_first()
response.xpath("//meta[@property = 'og:title']/@content").extract_first()

我两个都无法获得标题

也在发布日期

response.xpath("//time[@class = 'article-timestamp']/@datetime").extract_first()

一无所获,请问有什么想法吗?

这是网址

https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker

谢谢!

1 个答案:

答案 0 :(得分:1)

被检测为机器人。

使用scrapy shell <url>view(response)查看您收到的回复。

避免被发现的措施包括:

  • 如果可以负担得起,请使用智能代理。

  • 尝试使您的请求与Web浏览器的请求更加相似。

  • 使用启动画面。

在后两种情况下,请准备好使用多个代理,以防它们由于活动异常活跃而禁止了您的IP地址。