Question

我一直试图从这个网站上抓取文字http://www.ewtn.com/daily-readings/?date=2017-11-26

从shell中输入

>response.xpath('//text()').extract()

我无法访问以下html信息

<span id="cur-date">Sunday, November 26, 2017</span>

2017年11月26日星期日

<div class="reading-type">First Reading</div>

这将是第一次阅读

我确实得到了页面上几乎所有其他内容 - 似乎scrapy被阻止了

Answer 1

感谢Markus让我朝着正确的方向前进！我使用scrapy-webdriver让我在PhantomJS中渲染JavaScript以便用Scrapy解析...因为Scrapy不运行JavaScript而且这个站点似乎直接将它注入浏览器以转换为HTML ... PhantomJS是一个无头浏览器，可以为Scrapy运行JavaScript。

scrapy可能被网站阻止

1 个答案: