目前,我们正在搜索功能中实现内存缓存机制 现在数据变得非常大,我们无法在内存中处理它。此外,我们从不同的系统(oracle,平面文件和git)获得更多的输入源。
请您分享一下我们如何实现这一过程?
我们认为ES会对此有所帮助。但是,如果最终源发生任何变化,我们如何提供输入? (批处理无济于事)
Hadoop - 我们没有处理的数据级别 也分享你的想法。
答案 0 :(得分:1)
我们从不同系统(oracle,flat file和git)获得更多输入源
我认为这就是你为什么标记卡夫卡的原因?它会起作用,但你会提出一个有效的观点
但是,如果发生任何变化,我们如何提供输入?
对于纯文本或Git事件,您显然需要更改一些解析器引擎并重新启动作业以在消息模式中获取额外数据。
对于Oracle,GoldenGate产品将发布表列更改,Kafka Connect可以识别这些事件并相应地更新有效负载。
如果你关心的只是搜索事物,那么就有很多工具,但是你提到了Elasticsearch,所以使用Filebeat可以用于明文,而Logstash可以用于各种其他类型的输入源。如果您有Kafka,然后将事件提供给Kafka,让Logstash或Kafka Connect更新ES