我们将Elasticsearch中的所有访问日志(平均2000 doc /秒)编入每日索引,并每分钟查询一下Elasticsearch以查找潜在的垃圾邮件发送者(100个查询)。 (Apache Storm或Apache Spark流的常见用例,但我们更喜欢Elasticsearch)。
垃圾邮件发送者查询正在时间窗口中搜索:[-1h;现在],然后进行一些严重的聚合,然后程序会对其进行分析以发现垃圾邮件发送者。
这很好,但是:
refresh_interval
设置为10秒以改善索引操作我想知道是否需要进行一些调整以适应此要求(也许是RAM磁盘,每小时索引...)?