我有这样的商业案例。我们正在开发一个网络爬行系统。因此,有些网站需要VPN才能访问。只有某些服务器安装了VPN服务。因此,我需要将爬行URL作业直接发送到这些服务器上的Storm工作人员,以便它可以使用安装在这些服务器上的VPN。
另一种情况是,由于更大的资源或特定的环境,我们有时会将更多的工作导航到特定的服务器。所以我有几个问题:
- 如果我们有10个物理服务器(主管),如果我们将Storm的工作人数设置为> = 10,它是否保证所有主管都有拓扑工作者?因为首先我们需要确保在VPN服务器上安装了一个worker。或者我们需要Storm的自定义调度程序?
- 有没有办法强制将元组发送给特定的主管?例如:url abc.com需要访问VPN,服务器#10有VPN,如何将此作业发送到服务器#10?我想我可以使用直接分组但不确定这一点,或者使用所有分组发送给所有工作人员,但它非常昂贵。
感谢您的阅读。希望你能帮忙。