我一直试图从这个网站上抓取文字http://www.ewtn.com/daily-readings/?date=2017-11-26
从shell中输入
>response.xpath('//text()').extract()
我无法访问以下html信息
<span id="cur-date">Sunday, November 26, 2017</span>
2017年11月26日星期日
<div class="reading-type">First Reading</div>
这将是第一次阅读
我确实得到了页面上几乎所有其他内容 - 似乎scrapy被阻止了
答案 0 :(得分:0)
感谢Markus让我朝着正确的方向前进!我使用scrapy-webdriver让我在PhantomJS中渲染JavaScript以便用Scrapy解析...因为Scrapy不运行JavaScript而且这个站点似乎直接将它注入浏览器以转换为HTML ... PhantomJS是一个无头浏览器,可以为Scrapy运行JavaScript。