我正在编写一个抓取工具来抓取一些论坛内容,我的所有HTTP连接都使用Apache Http Client。 正如官方文档所建议的那样,我使用单个Http客户端作为单个论坛服务器,这个配备了PoolingHttpClientConnectionManager实例的客户端可以同时执行多个执行线程的多个请求。
此Pooling连接管理器的一个重要属性是每个路由的最大连接数(默认情况下为2)。我很困惑,这是确保爬行速度但不会使服务器过载的最佳(一般)限制?
(一般来说,我的意思是在不同情况下适用于一般论坛服务器的平均数,因为我会在初始化连接管理器时将其设置为静态。)
除此之外,如果有人知道如何根据HttpClient 4.5或其他类似库中的服务器反馈动态管理每条路由的限制,我将非常感激。
非常感谢您的帮助!