使用Elasticsearch作为Lambda架构中的实时流引擎

时间:2018-09-21 08:30:20

标签: elasticsearch streaming lambda-architecture

我们将Elasticsearch中的所有访问日志(平均2000 doc /秒)编入每日索引,并每分钟查询一下Elasticsearch以查找潜在的垃圾邮件发送者(100个查询)。 (Apache Storm或Apache Spark流的常见用例,但我们更喜欢Elasticsearch)。

垃圾邮件发送者查询正在时间窗口中搜索:[-1h;现在],然后进行一些严重的聚合,然后程序会对其进行分析以发现垃圾邮件发送者。

这很好,但是:

  1. 消耗大量CPU,也许是因为磁盘i​​o吗?
  2. 不是实时的,因为我们将refresh_interval设置为10秒以改善索引操作

我想知道是否需要进行一些调整以适应此要求(也许是RAM磁盘,每小时索引...)?

0 个答案:

没有答案