标签: elasticsearch logstash
背景:我从varius日志文件和Cassandra表中获取信息。日志文件很好,但是从表中获取在弹性搜索中给出了重复项,因为我无法获得自sql_last_run以来添加的行。 如何避免重复行?
答案 0 :(得分:0)
避免这种情况的一种方法是通过计算原始日志行的SHA或MD5来创建自己的文档ID。
这样,即使重复读取,相同的日志行也将始终生成相同的ID,并且您不会再获得任何重复的文档。
另一种解决方案是使用唯一的GUID在表中创建另一列,并将该值用作文档ID。