我正在启动网络抓取工具,并可以选择使用crawler4j。由于特定的客户要求,所有代码必须在Java EE战争下运行。由于Java中的大多数爬虫都是以独立模式运行,因此我想知道运行典型的长时间处理作业的最佳方法,例如爬虫,特定的crawler4j,它在Web上下文中具有多线程功能。 我已经看到了Spring Batch,Quartz等可能的解决方案,但我无法确定哪种解决方案更适合这种情况。
编辑:我发现了一个类似的问题:How to schedule crawler4j crawl control to run periodically?无法解答