使用Talend从MySQL表中删除重复项

时间:2018-08-15 15:08:27

标签: mysql talend

从SAS的背景来看,我发现Talend的这项重复数据集的基本任务非常繁琐。我确信这与缺乏该工具的经验有关。

在插入数据后,我需要从目标数据集中删除重复项。我似乎无法使用tSortRow(MySQL)运行多个sql语句,但出现错误-“您的SQL语法有错误”。该查询集在MySQL Workbench上可以正常工作。

使用SAS Data Management Studio,我可以添加一个SAS代码节点,并可以使用noduplicates修饰符运行此排序过程。我试图通过tMySQLRow组件运行一组SQL查询来做类似的事情。

你们是怎么做到的?我需要的是对数据源中的数据进行重复数据删除的巧妙方法。

2 个答案:

答案 0 :(得分:1)

通过在子作业中执行以下操作,我已经能够删除表数据:

tDBInput-> tAggregate(按值计数)-> tFilterRow(其中重复字段的计数大于1)

subjob

或者,由于您使用的是MySQL,因此您应该能够通过SQL删除重复项。您有表格的示例架构吗?

答案 1 :(得分:0)

talend有一个内置组件,用于删除重复值tuniquerow,该值将在删除重复记录后加载到目标中

tDBInput_1 ----> tUniqueRow_1 --->目标

注意:您需要指定用于检查tUniqueRow中重复值的键列