我正在尝试从以下链接https://timesofindia.indiatimes.com/archive/year-2018,month-1.cms抓取数据。具体来说,我尝试使用日历表中存在的URL。 我当前执行此操作的代码是
response.xpath('//*[@id="calender"]//a/@href').extract()
但是这没有给我任何结果。我要去哪里错了,怎么办?
答案 0 :(得分:1)
如果您查看页面的源代码,将会发现您要提取的链接不存在。
相反,有大量的javascript生成它们。
您有两种方法可以抓取此数据: