确定匹配算法

时间:2013-07-31 18:28:06

标签: machine-learning pattern-matching e-commerce nlp

我对NLP / ML /模式匹配或识别相当新。我想知道根据标题,描述等匹配不同项目的最佳方法是什么。例如:

如果有3个项目:

item 1: Title: Belkin bluetooth headset USB - ABD13432
item 1: Description: This is a bluetooth device with the following specs: 
75 W power, 3.5 mm jack, etc
item 1: Model NO: ABD13432
item 1: UPC Code: 000000022221
item 1: product image: <img1>

item 2: Title: Belkin headset: 
item 2: Description: This is a device that works on RF, and has 2.5 mm jack with 25 W power 
item 2: Model No: 13432
item 2: UPC Code: 000022022221
item 2: product image: <img1>

item 3: Title: Belkin headset wireless - ABD 13432
item 3: Description: World's best headphone
item 3: Model No: ABD-13432 
item 3: UPC Code: 000000022221
item 3: product image: <img1>

第1项和第3项相同,第2项不同。 UPC代码通常是一个很好的指标,如果它是相同的项目,但问题是卖方可以输入他想要的任何UPC代码。但是图像匹配不一定是一个好的指标,因为卖家可以输入他想要的任何图像。

1 个答案:

答案 0 :(得分:0)

在这种特殊情况下,Model No和UPC显然比其他功能贡献更多的权重。

当项目具有不同的Model No或UPC时,您可以将短句的语义相似性视为学习算法的另一个特征。

你可能想看看this paper。由于您的情况属于产品/电子商务领域,您可能希望构建自己的域语料库,而不是使用通用wordnet。