什么是在scrapy中刮除disqus评论数量的最佳方法?

时间:2014-06-07 13:55:46

标签: python web-scraping scrapy

我刚刚开始使用scrapy,并对这种情况的最佳实践感兴趣。 Scrapy旨在使用CSS或XPath在页面上选择元素。 Disqus评论似乎加载到iFrame中,使得它们更难以刮擦。我知道他们有一个API,但有没有办法使用xpath / css或其他一些简单的选择器来刮掉它们?

以下是一个示例帖子:http://www.ibtimes.com/who-aaron-ybarra-suspected-seattle-pacific-university-shooter-obsessed-columbine-1595326

我尝试使用Disqus注释计数的xpath,但这似乎不起作用。

In [36]: sel.xpath('//*[@id="main-nav"]/nav/ul/li[1]/a/span[1]').extract()
Out[36]: []

还有其他方法可以计算吗?这里最好的策略是什么?

0 个答案:

没有答案