crawler4j无法识别页面上的所有链接

时间:2015-05-11 00:58:29

标签: crawler4j

基本上我遇到的问题是crawler4j无法识别页面上的所有链接。

例如,在页面上存在5个链接,其中只有3个被识别并因此被提取。休息2甚至不被认可。

预期产量是多少?你怎么看? 应识别页面中的所有链接,以便可以获取它们

您使用的是哪个版本的产品? crawler4j 4.1

请在下面提供任何其他信息。 我在链接中找不到的区别是这些链接中没有被识别的链接。

离。

<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a>

1 个答案:

答案 0 :(得分:0)

是的,它似乎是crawler4j页面解析器中的一个错误。

找到标签,然后搜索一个结束括号 - 这是我假设的失败点。

请将问题提交给新的crawler4j网站 - 在github上: https://github.com/yasserg/crawler4j/issues

由于