大家好我正在编写一个简单的网页抓取脚本,需要连接到网页,自动跟踪302重定向,从链接中给我最终的网址,让我抓住HTML。
做这类事情的首选java lib是什么?
感谢
答案 0 :(得分:9)
您可以使用Apache HttpComponents Client(或“简单的vanilla”Java SE内置和详细URLConnection
API)。对于HTML解析/遍历/操作部分Jsoup可能是useful。
请注意,一个不错的抓取工具应该服从robots.txt。您可能想要查看现有的基于Java的webcrawler,例如 J-Spider Apache Nutch。
答案 1 :(得分:2)
正如BalusC所说,看看Apache的HttpComponents客户端。 Nutch项目解决了许多硬爬行/获取/索引问题,所以如果你想看看他们如何解决以下问题,请查看http://svn.apache.org/viewvc/nutch/trunk/src/