应用错误收集

我正在实施网络抓取工具，而我正在使用Crawler4j库。我没有得到网站上的所有链接。我试图使用Crawler4j提取一个页面上的所有链接，并错过了一些链接。

Crawler4j版本：crawler4j-3.3

我使用的网址：http：//testsite2012.site90.com/frontPage.html

没有。本页面上的链接：其中近60和4-5正在重复

没有。链接crawler4j给出：23

this是页面上的网址列表，this是Crawler4j提供的网址列表。

我使用crawler4j查看'HtmlContentHandler.java'文件来提取链接。在此仅提取与'src'和'href'相关联的链接。

我发现这些文件之间存在差异。 Crawler4j缺少与'src'或'href'属性无关的链接，这些链接位于'script'标记下。 this是crawler4j未抓取的链接列表。

如何提取此页面上的所有链接？我是否需要在HTML解析页面上进行字符串操作（如查找'http'），还是应该更改'HtmlContentHandler.java'文件的代码？

哪种方式最好？

即使我进行字符串操作并提取此页面上的所有链接，但Crawler4j使用自己抓取的链接抓取网站，在这种情况下它会丢失一些页面吗？