使用Apache Kafka将数据从MSSQL同步到Elasticsearch

时间:2017-08-08 19:30:38

标签: sql-server elasticsearch apache-kafka apache-kafka-connect

我目前正在SQL Server中运行文本搜索,这已成为一个瓶颈,我想将事情移到Elasticsearch,原因很明显,但我知道我必须对数据进行非规范化以获得最佳性能和可伸缩性。 / p>

目前,我的文本搜索包括一些聚合和连接多个表以获得最终输出。已加入的表不是那么大(每个表最多20GB),但是不定期地更改(插入,更新,删除)(其中两个一周一次,另一个按需x次)。

我的计划是将Apache Kafka与Kafka Connect一起使用,以便从我的SQL Server读取CDC,在Kafka中加入这些数据并将其保存在Elasticsearch中,但是我找不到任何材料告诉我如何处理删除数据被保存到Elasticsearch。

默认驱动程序是否支持此功能?如果没有,有什么可能性? Apache Spark,Logstash?

1 个答案:

答案 0 :(得分:0)

我不确定现在是否可以在Kafka Connect中实现此功能,但是似乎可以使用Nifi来解决。

希望我能理解这一点,这是使用标准NiFi处理器之一删除Elasticsearch记录的文档:

https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-elasticsearch-5-nar/1.5.0/org.apache.nifi.processors.elasticsearch.DeleteElasticsearch5/