应用错误收集

使用具有特定css类的scrapy提取链接

时间：2015-06-17 14:04:06

标签： python web-scraping scrapy screen-scraping scrapy-spider

概念上简单的问题/想法。

使用Scrapy，如何使用提取的LinkExtractor仅跟随给定CSS的链接？

看似琐碎而且它应该已经内置，但是我没有看到它？是吗？

看起来我可以使用XPath，但我更喜欢使用CSS选择器。好像他们不受支持？

我是否必须编写自定义LinkExtractor来使用CSS选择器？

1 个答案:

答案 0 :(得分：1)

根据我的理解，你想要类似restrict_xpaths的东西，但是提供一个CSS选择器而不是XPath表达式。

这实际上是Scrapy 1.0中的内置功能（当前处于候选发布状态），该参数称为restrict_css：

restrict_css

CSS选择器（或选择器列表），用于定义内部区域   响应应该从哪里提取链接。有相同的行为   as restrict_xpaths。

初始功能请求：

CSS support in link extractors