我在talend open studio中创建了一个数据集成v5.5.1的工作。
我正在尝试查找两个客户名称列之间的匹配,一个是查找,另一个是脏数据。
当客户名称为英语时,作业按预期运行。然而,对于阿拉伯语名称,只有完全匹配,无论我使用的基础匹配算法(levenschtein,metaphone,双metaphone),即使是levenschtein算法min 1 max 50的松散界限。
我怀疑这与字符编码有关。我该怎么办?我可以用Talend中的unicode甚至UTF-8解释来操作吗?
我通过tFileInputExcel使用excel数据源
答案 0 :(得分:0)
我通过使用UTF-8排序规则将数据移动到mysql来解决问题。不知何故,Excel输入并没有保留整理。