tFuzzyMatch显然不适用于阿拉伯语文本字符串

时间:2014-08-26 07:48:01

标签: arabic talend fuzzy-search fuzzy-comparison data-quality

我在talend open studio中创建了一个数据集成v5.5.1的工作。

我正在尝试查找两个客户名称列之间的匹配,一个是查找,另一个是脏数据。

当客户名称为英语时,作业按预期运行。然而,对于阿拉伯语名称,只有完全匹配,无论我使用的基础匹配算法(levenschtein,metaphone,双metaphone),即使是levenschtein算法min 1 max 50的松散界限。

我怀疑这与字符编码有关。我该怎么办?我可以用Talend中的unicode甚至UTF-8解释来操作吗?

我通过tFileInputExcel使用excel数据源

1 个答案:

答案 0 :(得分:0)

我通过使用UTF-8排序规则将数据移动到mysql来解决问题。不知何故,Excel输入并没有保留整理。