从SAS的背景来看,我发现Talend的这项重复数据集的基本任务非常繁琐。我确信这与缺乏该工具的经验有关。
在插入数据后,我需要从目标数据集中删除重复项。我似乎无法使用tSortRow(MySQL)运行多个sql语句,但出现错误-“您的SQL语法有错误”。该查询集在MySQL Workbench上可以正常工作。
使用SAS Data Management Studio,我可以添加一个SAS代码节点,并可以使用noduplicates修饰符运行此排序过程。我试图通过tMySQLRow组件运行一组SQL查询来做类似的事情。
你们是怎么做到的?我需要的是对数据源中的数据进行重复数据删除的巧妙方法。
答案 0 :(得分:1)
通过在子作业中执行以下操作,我已经能够删除表数据:
tDBInput-> tAggregate(按值计数)-> tFilterRow(其中重复字段的计数大于1)
或者,由于您使用的是MySQL,因此您应该能够通过SQL删除重复项。您有表格的示例架构吗?
答案 1 :(得分:0)
talend有一个内置组件,用于删除重复值tuniquerow,该值将在删除重复记录后加载到目标中
tDBInput_1 ----> tUniqueRow_1 --->目标
注意:您需要指定用于检查tUniqueRow中重复值的键列