我的用例:
我有多个要爬网的域,每个域都有自己的过滤器配置。每个域现在都作为拓扑运行。 我看到一些域已经爬网了大约1000万个URL,状态队列中又有另外50M个URL。 其他拓扑只是获取种子网址而处于闲置状态。 每个拓扑都有2GB的RAM,每个队列10个线程,最大存储区为50,每个存储区的url为100。
拓扑空闲的原因可能是什么?我怀疑状态队列中处于“已发现”状态的网址数量很高。
答案 0 :(得分:0)
您将什么用作后端?如果是ES,那么您应该能够使用Kibana检查状态索引,并查看那些空闲爬网的种子发生了什么。可能是它们被robots.txt阻止了,无法继续前进。
我将对所有域使用单个状态索引和单个拓扑-这将更易于管理和监视。可以轻松地为每个种子设置URL过滤,例如通过在过滤器的配置中甚至在同一URL过滤器文件中的每个域中为每个域定义一个单独的URL过滤器文件。