我无法让LinkExtractor在数据属性中找到链接。
HTML看起来像这样:
None
LinkExtractor是这样的:
<a href='#' data-url='/path/to/page' >
页面上还存在其他链接,这些链接带有HREF中的url,LinkExtractor可以找到那些很好的链接,而不是数据属性。
我发现了有关基于数据属性查找标签的类似问题,但没有发现有关在LinkExtractor中使用数据属性值的问题。
我认为这很普遍,所以对于必须找到答案的麻烦感到惊讶。
感谢您的帮助。
谢谢!
答案 0 :(得分:1)
这里的问题是您正在设置allow参数,这限制了LinkExtractor
只去查找那些匹配的链接,您设置attrs
参数是正确的,只需删除{ {1}}:
allow