我刚刚开始使用scrapy,并对这种情况的最佳实践感兴趣。 Scrapy旨在使用CSS或XPath在页面上选择元素。 Disqus评论似乎加载到iFrame中,使得它们更难以刮擦。我知道他们有一个API,但有没有办法使用xpath / css或其他一些简单的选择器来刮掉它们?
我尝试使用Disqus注释计数的xpath,但这似乎不起作用。
In [36]: sel.xpath('//*[@id="main-nav"]/nav/ul/li[1]/a/span[1]').extract()
Out[36]: []
还有其他方法可以计算吗?这里最好的策略是什么?