JSoup实现了这个吗?

时间:2012-06-21 16:46:00

标签: java jsoup web-crawler

我想收集域名(抓取)。我写了一个简单的Java应用程序,它读取HTML页面并将代码保存在文本文件中。现在,我想解析这个文本,以便收集所有没有douplicates的域名。但是我需要没有“http://www。”的域名,只需要domainname.topleveldmian或dmianname.subdomain.topleveldomain或任意数量的子域的可能性(然后,收集的链接需要以相同的方式提取并收集在他们内部链接,直到我达到一定数量的链接,比如100)。

我在以前的帖子https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames中询问了这个问题并进行了搜索。 JSoup似乎是很好的解决方案,但我之前没有使用过JSoup,所以在深入研究之前。我只是想问:它能实现我想做的事吗?我们欢迎任何其他以简单方式实现简单抓取的建议。

1 个答案:

答案 0 :(得分:-1)

  

jsoup是一个用于处理真实HTML的Java库。它提供   一个非常方便的API,用于提取和操作数据,使用   最好的DOM,CSS和类似jquery的方法

所以,你可以连接到一个网站提取它的html并用jsoup解析它。

提取顶级域的逻辑是“你的角色”,你需要自己编写代码逻辑。


查看文档了解更多选项......

Use selector-syntax to find elements

Use DOM methods to navigate a document