抓取抓取数据

时间:2018-12-01 22:38:00

标签: web-scraping scrapy

我正在尝试从以下链接https://timesofindia.indiatimes.com/archive/year-2018,month-1.cms抓取数据。具体来说,我尝试使用日历表中存在的URL。 我当前执行此操作的代码是

response.xpath('//*[@id="calender"]//a/@href').extract() 

但是这没有给我任何结果。我要去哪里错了,怎么办?

1 个答案:

答案 0 :(得分:1)

如果您查看页面的源代码,将会发现您要提取的链接不存在。
相反,有大量的javascript生成它们。

您有两种方法可以抓取此数据:

  • 弄清楚js代码的作用,并使用您的python代码进行操作 代替
  • 获取一些内容(例如浏览器)以执行js代码并 给你结果的HTML