我正在使用Talend进行模糊匹配,我想在同一个表的两列之间进行模糊匹配。但是tFuzzyMatch将从一个输入获得Match Column并从另一个输入中查找。
我需要的是我想从单一来源获得匹配列和查找。
我正在使用Talend 5.5.1
答案 0 :(得分:0)
您可以使用tMatchGroup组件执行内联模糊匹配。这将在单个流中搜索匹配/可能匹配的记录组。
tMatchGroup还允许输出按阈值指定的匹配可能性进行拆分,为自信匹配,可疑匹配和唯一行提供输出。
tMatchGroup组件还有一个图形向导,显示取自输入数据的样本中的预期匹配组,这在尝试调整匹配的算法和参数时非常有用。
例如,使用tMatchGroup组件的非常基本的作业可能如下所示:
配置tMatchGroup以使匹配组必须具有确切的年龄但将Jaro-Winkler应用于名称列:
您可以在上面的屏幕截图中看到,tMatchGroup有一个包含2条记录的匹配组,一条名为“Tom”,另一条名称为“Thom”,它们的年龄完全相同。
答案 1 :(得分:0)
这可以通过创建一个重复的输入源来实现,一个用作主要源,另一个用作查找,其余部分与您设置的相同。
在tFuzzyMatch设置中,您可以通过选择tFuzzyMatch组件内的Lookup and Matching Column设置来指向同一输入中的两列(通过使用指向同一源的两个输入组件不会欺骗)您需要比较的两列,每个来自一个来源(逻辑上来自同一来源)。
希望它有所帮助。