这是我的第二个问题,所以,如果有任何错误,请道歉。
我的主要目标是从不同的电子商务网站收集数据,然后比较它们之间的数据。为此,我需要匹配来自不同站点的相同产品。由于不同的网站以不同的方式写标题,我需要从标题中提取产品的属性以正确匹配。我使用scrapy收集了数据,但无法匹配来自不同网站的相同产品。
我的尝试:
首先,我收集品牌,型号等,然后以传统方式匹配标题。但它没有工作,因为无法收集所有的模型名称进行比较。另外,不同类别的产品属性不同,不相似。我试图找到适用于各种产品的解决方案。哪些可以学习和识别品牌,型号,属性(RAM,英寸,ROM,相机等)
我还尝试应用机器学习但不了解哪种方法适合我的需要。大多数文本分类方法对类别进行分类而不是提取属性。
我也读过MALLET。但不确定这是否能解决我的问题。还尝试了scikit-学习这个tutorial。
来自不同网站的示例产品标题。 三星Galaxy S9 Plus
请分享我怎样才能解决这个问题,哪种方式最好。并且如果可能的话,分享类似目标的一些链接或资源。
答案 0 :(得分:0)
使用sentence2vec或word2vec库将文本转换为向量。之后使用矢量之间的余弦相似性。
保持一些相似性的阈值,或者具有最大相似度值的矢量将是匹配的产品。
你可以比较那些。