应用错误收集

http连接的最佳java库？

时间：2010-07-02 03:18:14

标签： java

大家好我正在编写一个简单的网页抓取脚本，需要连接到网页，自动跟踪302重定向，从链接中给我最终的网址，让我抓住HTML。

做这类事情的首选java lib是什么？

感谢

2 个答案:

答案 0 :(得分：9)

您可以使用Apache HttpComponents Client（或“简单的vanilla”Java SE内置和详细URLConnection API）。对于HTML解析/遍历/操作部分Jsoup可能是useful。

请注意，一个不错的抓取工具应该服从robots.txt。您可能想要查看现有的基于Java的webcrawler，例如 ~~J-Spider~~ Apache Nutch。

答案 1 :(得分：2)

正如BalusC所说，看看Apache的HttpComponents客户端。 Nutch项目解决了许多硬爬行/获取/索引问题，所以如果你想看看他们如何解决以下问题，请查看http://svn.apache.org/viewvc/nutch/trunk/src/