基本上我遇到的问题是crawler4j无法识别页面上的所有链接。
例如,在页面上存在5个链接,其中只有3个被识别并因此被提取。休息2甚至不被认可。
预期产量是多少?你怎么看? 应识别页面中的所有链接,以便可以获取它们
您使用的是哪个版本的产品? crawler4j 4.1
请在下面提供任何其他信息。 我在链接中找不到的区别是这些链接中没有被识别的链接。
离。
<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a>
答案 0 :(得分:0)
是的,它似乎是crawler4j页面解析器中的一个错误。
找到标签,然后搜索一个结束括号 - 这是我假设的失败点。
请将问题提交给新的crawler4j网站 - 在github上: https://github.com/yasserg/crawler4j/issues
由于