Scrapy CrawlSpider-从数据属性中提取链接(LinkExtractor规则)

时间:2018-12-19 20:44:48

标签: python scrapy

我无法让LinkExtractor在数据属性中找到链接。

HTML看起来像这样:

None

LinkExtractor是这样的:

<a href='#' data-url='/path/to/page' >

页面上还存在其他链接,这些链接带有HREF中的url,LinkExtractor可以找到那些很好的链接,而不是数据属性。

我发现了有关基于数据属性查找标签的类似问题,但没有发现有关在LinkExtractor中使用数据属性值的问题。

我认为这很普遍,所以对于必须找到答案的麻烦感到惊讶。

感谢您的帮助。

谢谢!

1 个答案:

答案 0 :(得分:1)

这里的问题是您正在设置allow参数,这限制了LinkExtractor只去查找那些匹配的链接,您设置attrs参数是正确的,只需删除{ {1}}:

allow