我一直在搜索并查看许多不同的爬虫。但我不太确定应该选哪一个。
我的目标是搜索完整的域名,http://www.example.com
及其所有子域名,http://www.example.com/page1
然后,能够搜索不同的标签,特别是图像标签,以找到它们的来源。
到目前为止,只有一个爬行器引起了我的注意:
有什么想法吗?
答案 0 :(得分:1)
我可能错了,但你不只是要求爬虫,而是要求HTML分析器 - 能够理解html标签......
如果是这样,你可以使用JSoup,甚至用正则表达式解析。
如果您确实需要抓取工具,可能会发现Nutch是一个下降的开源抓取工具
希望这有帮助