如何匹配来自不同电子商务来源的产品?提取产品的属性

时间:2018-06-05 07:19:57

标签: machine-learning classification e-commerce text-extraction mallet

这是我的第二个问题,所以,如果有任何错误,请道歉。

我的主要目标是从不同的电子商务网站收集数据,然后比较它们之间的数据。为此,我需要匹配来自不同站点的相同产品。由于不同的网站以不同的方式写标题,我需要从标题中提取产品的属性以正确匹配。我使用scrapy收集了数据,但无法匹配来自不同网站的相同产品。

我的尝试:

首先,我收集品牌,型号等,然后以传统方式匹配标题。但它没有工作,因为无法收集所有的模型名称进行比较。另外,不同类别的产品属性不同,不相似。我试图找到适用于各种产品的解决方案。哪些可以学习和识别品牌,型号,属性(RAM,英寸,ROM,相机等)

我还尝试应用机器学习但不了解哪种方法适合我的需要。大多数文本分类方法对类别进行分类而不是提取属性。

我也读过MALLET。但不确定这是否能解决我的问题。还尝试了scikit-学习这个tutorial

来自不同网站的示例产品标题。 三星Galaxy S9 Plus

  • 三星Galaxy S9 Plus配备免费无线充电器和5GB Banglalink数据 - pickaboo
  • SAMSUNG GALAXY S9 PLUS - kiksha
  • 三星Galaxy S9 + - mobiledokan
  • 三星Galaxy S9 Plus - 智能手机 - 6.2“ - 6GB内存 - 64GB ROM - 12万像素相机 - 丁香紫 - daraz

请分享我怎样才能解决这个问题,哪种方式最好。并且如果可能的话,分享类似目标的一些链接或资源。

1 个答案:

答案 0 :(得分:0)

使用sentence2vec或word2vec库将文本转换为向量。之后使用矢量之间的余弦相似性。

保持一些相似性的阈值,或者具有最大相似度值的矢量将是匹配的产品。

你可以比较那些。