我正在尝试从两个不同的站点配对对象。他们不使用通用ID,所以我需要手工完成。
其中一个也是一种在内部识别物品的奇怪方式。 我不知道如何将它们结合在一起。 现在我试着用它们分割物品的方式: - 类别(室内使用,室外,纸张,金属,钢笔,食品用途......) - 产品(“Microsoft Widget A”,“MS Widget B”) - 项目(10厘米红色,200米蓝色纸制成..)
项目例如可以是一个站点(站点A)上相同产品(1.5cm,10cm,100cm)的不同大小,而另一个站点 “分裂”不同。产品可以分为数量/颜色/尺寸作为项目。这意味着我可以拥有 网站a:产品小工具A,红色 项目:10厘米,20厘米,100厘米 网站b:产品小工具A, 项目:红色10厘米,红色20厘米,红色100厘米,蓝色10厘米,蓝色100厘米
另一个坏处是类别没有以相同的方式定义,站点A可能会说“户外水上小工具”, 而另一个在子类别中有“Outoor”和“Widget for water”。或者更糟糕的是它使用不同的措辞。
目前,为了尝试找到解决方案,我尝试手动将站点A的主要类别与站点B相结合,并将所有子类别项目视为父类别的项目。 这是次优的,因为站点B上的某些类别可能以不同的顺序排序(例如,有子类别,如 “相关”,基本上链接到其他主要类别。 ) 对于产品,我只是将项目的所有名称与Levenshtein算法进行比较,并将产品与更高的比率相结合。 我正在使用站点A来定义如何对产品进行分组,结果不好,我没有将所有“小部件A”组合在一起,而是我有“Widget A,red”,“Widget A,blue”等对
有谁知道如何改善这个? 现在我唯一的想法是:
我不是人工智能专家,但我见过的算法可以帮助你定义对象,但不会有人将它们配对。 我可能需要写一些东西来分类项目的特征(红色,10厘米)。也许也使用类别名称 (例如:网站A:“户外水上小工具”和网站B:类别:“户外”,产品:“水上小工具”)。
答案 0 :(得分:0)
万一有人偶然读了我的问题,我终于使用余弦相似性构建了东西。
例如: Use sklearn to find string similarity between two texts with large group of documents