Question

我正在尝试从以下链接https://timesofindia.indiatimes.com/archive/year-2018,month-1.cms抓取数据。具体来说，我尝试使用日历表中存在的URL。我当前执行此操作的代码是

response.xpath('//*[@id="calender"]//a/@href').extract()

但是这没有给我任何结果。我要去哪里错了，怎么办？

Answer 1

如果您查看页面的源代码，将会发现您要提取的链接不存在。
相反，有大量的javascript生成它们。

您有两种方法可以抓取此数据：