我正在收集与来自不同供应商(来自网站或apis)的电子产品相关的数据,我需要一种方法来查找每个供应商的类似产品并将它们链接到主数据库中。例如:供应商1将名称列为“三星galaxy Note 4”,供应商2列出'galaxy note 4 black 16 GB',供应商3列为'galaxy note 4',我需要将它们全部链接为单个产品并存储参考不同的供应商。我做了我的搜索,发现这种分析可以使用ETL,如Talend和Kettle,并使用levenshtein,metaphone等算法或使用python的FuzzyWuzzy。它的工作量不到50%。我的问题是
我正在寻找帮助我解决问题的软件包或工具的名称。 我真的很感激anwser。
答案 0 :(得分:0)
如果您已经在使用Talend,则可以使用组件对数据执行模糊匹配。 tFuzzyMatch适用于所有用户。 tRecordMatching和tMatchGroup可供Platform产品客户使用。
首先,您可以使用tFuzzyMatch将主流中的列与查找流中的参考列进行比较,并输出显示距离的主流数据。匹配类型包括Levenshtein,Metaphone和Double Metaphone。您可以在Levenshtein和Metaphone周围的Talend帮助中心找到方案:https://help.talend.com/display/TalendComponentsReferenceGuide60EN/tFuzzyMatch
此外,tFuzzyMatching和tRecordMatching(对于平台客户:https://help.talend.com/display/TalendComponentsReferenceGuide60EN/tRecordMatching)能够匹配不同数据源之间的数据记录。 tMatchGroup(适用于平台客户:https://help.talend.com/display/TalendComponentsReferenceGuide60EN/tMatchGroup)可以在单个数据源中找到类似的数据记录。