Java爬网程序可以抓取单个域及其所有子站点

时间:2013-08-05 12:31:57

标签: java web-crawler

我一直在搜索并查看许多不同的爬虫。但我不太确定应该选哪一个。

我的目标是搜索完整的域名,http://www.example.com及其所有子域名,http://www.example.com/page1 然后,能够搜索不同的标签,特别是图像标签,以找到它们的来源。

到目前为止,只有一个爬行器引起了我的注意:

jsoup

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

我可能错了,但你不只是要求爬虫,而是要求HTML分析器 - 能够理解html标签......

如果是这样,你可以使用JSoup,甚至用正则表达式解析。

如果您确实需要抓取工具,可能会发现Nutch是一个下降的开源抓取工具

希望这有帮助