为Http连接池设置每条路由的最大连接数

时间:2016-03-15 07:15:53

标签: http web-crawler httpclient apache-httpclient-4.x

我正在编写一个抓取工具来抓取一些论坛内容,我的所有HTTP连接都使用Apache Http Client。 正如官方文档所建议的那样,我使用单个Http客户端作为单个论坛服务器,这个配备了PoolingHttpClientConnectionManager实例的客户端可以同时执行多个执行线程的多个请求。

此Pooling连接管理器的一个重要属性是每个路由的最大连接数(默认情况下为2)。我很困惑,这是确保爬行速度但不会使服务器过载的最佳(一般)限制?

(一般来说,我的意思是在不同情况下适用于一般论坛服务器的平均数,因为我会在初始化连接管理器时将其设置为静态。)

除此之外,如果有人知道如何根据HttpClient 4.5或其他类似库中的服务器反馈动态管理每条路由的限制,我将非常感激。

非常感谢您的帮助!

0 个答案:

没有答案