使用具有特定css类的scrapy提取链接

时间:2015-06-17 14:04:06

标签: python web-scraping scrapy screen-scraping scrapy-spider

概念上简单的问题/想法。

使用Scrapy,如何使用提取的LinkExtractor仅跟随给定CSS的链接?

看似琐碎而且它应该已经内置,但是我没有看到它?是吗?

看起来我可以使用XPath,但我更喜欢使用CSS选择器。好像他们不受支持?

我是否必须编写自定义LinkExtractor来使用CSS选择器?

1 个答案:

答案 0 :(得分:1)

根据我的理解,你想要类似restrict_xpaths的东西,但是提供一个CSS选择器而不是XPath表达式。

这实际上是Scrapy 1.0中的内置功能(当前处于候选发布状态),该参数称为restrict_css

  

restrict_css

     

CSS选择器(或选择器列表),用于定义内部区域   响应应该从哪里提取链接。有相同的行为   as restrict_xpaths。

初始功能请求: