应用错误收集

我想收集域名（抓取）。我写了一个简单的Java应用程序，它读取HTML页面并将代码保存在文本文件中。现在，我想解析这个文本，以便收集所有没有douplicates的域名。但是我需要没有“http://www。”的域名，只需要domainname.topleveldmian或dmianname.subdomain.topleveldomain或任意数量的子域的可能性（然后，收集的链接需要以相同的方式提取并收集在他们内部链接，直到我达到一定数量的链接，比如100）。

我在以前的帖子https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames中询问了这个问题并进行了搜索。 JSoup似乎是很好的解决方案，但我之前没有使用过JSoup，所以在深入研究之前。我只是想问：它能实现我想做的事吗？我们欢迎任何其他以简单方式实现简单抓取的建议。

JSoup实现了这个吗？

1 个答案: