我们正在使用Talend open studio进行从Cassandra到SQL的数据传输。 在使用Talend作业读取数据时,有时我们会面临数据丢失。我们无法找到相同的任何错误。即使是Cassandra系统/调试日志也显示非常有限的信息。我们可以在Cassandra或Talend Open studio中配置任何可以避免此数据丢失的设置吗?
注意:我们正在处理5M记录/小时,我们缺少大约1%的数据丢失。这不是一个一致的问题,而是间歇性的问题。
答案 0 :(得分:0)
在这种情况下,我在talend中写了一些java例程,发布到elasticsearch。根据你的talend版本,这附带了talend。并且使用Elastic和Kibana对大型数据集进行基于日志的分析非常容易。但关键是使用java例程使用tjavarow记录成功和失败,这使得它更容易。