更好的网页源提供商

时间:2011-04-21 10:34:06

标签: java httprequest webpage apache-commons-httpclient http-unit

我正在尝试使用代理在java中提取页面源。

我使用了httpclient,httpunit和HttpURLConnection,所有这些都需要5秒,当我去寻找没有代理的页面源但是我使用代理然后它需要12-15秒的单页。

有没有办法提高速度或提供快速页面源的其他类。

1 个答案:

答案 0 :(得分:1)

您需要确定问题首先出现的地方:您从中提取网页的服务器是否真的很慢,或者您使用的代理是否真的很慢(或两者兼而有之)? 如果您在命令行中使用wget(或者甚至可能是curl),它们应该显示有关页面下载时间的统计信息 - 通过代理和绕过代理。如果这些时间与您的代码显示的相同,那么您无法优化。但是,如果您发现存在差异,则可以使用其他方式在代码中提取页面。 一般的经验法则是:

  • 如果您正在处理大量连接,请使用Java NIO
  • 如果您正在处理仅向少数主机/服务器的大型传输,则使用普通的Java IO