如何从单个源表中获取Talend中tFuzzyMatch的查找和匹配列

时间:2014-08-21 07:23:34

标签: etl talend

我正在使用Talend进行模糊匹配,我想在同一个表的两列之间进行模糊匹配。但是tFuzzyMatch将从一个输入获得Match Column并从另一个输入中查找。

我需要的是我想从单一来源获得匹配列和查找。

我正在使用Talend 5.5.1

2 个答案:

答案 0 :(得分:0)

您可以使用tMatchGroup组件执行内联模糊匹配。这将在单个流中搜索匹配/可能匹配的记录组。

tMatchGroup还允许输出按阈值指定的匹配可能性进行拆分,为自信匹配,可疑匹配和唯一行提供输出。

tMatchGroup组件还有一个图形向导,显示取自输入数据的样本中的预期匹配组,这在尝试调整匹配的算法和参数时非常有用。

例如,使用tMatchGroup组件的非常基本的作业可能如下所示:

Job layout

配置tMatchGroup以使匹配组必须具有确切的年龄但将Jaro-Winkler应用于名称列:

tMatchGroup configuration

您可以在上面的屏幕截图中看到,tMatchGroup有一个包含2条记录的匹配组,一条名为“Tom”,另一条名称为“Thom”,它们的年龄完全相同。

答案 1 :(得分:0)

这可以通过创建一个重复的输入源来实现,一个用作主要源,另一个用作查找,其余部分与您设置的相同。

在tFuzzyMatch设置中,您可以通过选择tFuzzyMatch组件内的Lookup and Matching Column设置来指向同一输入中的两列(通过使用指向同一源的两个输入组件不会欺骗)您需要比较的两列,每个来自一个来源(逻辑上来自同一来源)。

希望它有所帮助。