Question

我无法让LinkExtractor在数据属性中找到链接。

HTML看起来像这样：

None

LinkExtractor是这样的：

<a href='#' data-url='/path/to/page' >

页面上还存在其他链接，这些链接带有HREF中的url，LinkExtractor可以找到那些很好的链接，而不是数据属性。

我发现了有关基于数据属性查找标签的类似问题，但没有发现有关在LinkExtractor中使用数据属性值的问题。

我认为这很普遍，所以对于必须找到答案的麻烦感到惊讶。

感谢您的帮助。

谢谢！

Answer 1

这里的问题是您正在设置allow参数，这限制了LinkExtractor只去查找那些匹配的链接，您设置attrs参数是正确的，只需删除{ {1}}：

allow