Question

基本上我遇到的问题是crawler4j无法识别页面上的所有链接。

例如，在页面上存在5个链接，其中只有3个被识别并因此被提取。休息2甚至不被认可。

预期产量是多少？你怎么看？ 应识别页面中的所有链接，以便可以获取它们

您使用的是哪个版本的产品？ crawler4j 4.1

请在下面提供任何其他信息。 我在链接中找不到的区别是这些链接中没有被识别的链接。

离。

<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a>

Answer 1

是的，它似乎是crawler4j页面解析器中的一个错误。

找到标签，然后搜索一个结束括号 - 这是我假设的失败点。

请将问题提交给新的crawler4j网站 - 在github上： https://github.com/yasserg/crawler4j/issues

由于