用于产品识别的字符串匹配算法

时间:2019-05-12 20:16:26

标签: machine-learning neural-network dataset reinforcement-learning

真的不知道从哪里开始寻找合适的算法。

我正在构建一个Web应用程序,该应用程序从Amazon,Shopify等不同的网上商店收集schema.org数据。它每6小时收集一次数据,并显示当前和最低价格。它用于监视产品和以最低价格购买。

我的目标是将来自不同商店的产品识别为同一产品。每个商店对相同产品都有自己的标题。

示例:

- (IBAction)sub:(id)sender {
    NSString *input = textf.text;
    lab.text=input;

    for (int i = 1; i <=100; ++i)
    {
        if (i % 15 == 0) NSLog(@"FizzBuzz");
        else if ( i % 3 == 0) NSLog(@"Fizz");
        else if ( i % 5 == 0) NSLog(@"Buzz");
        else NSLog(@"%d", i);
    }


}

问题:

  1. 没有很多数据(只有用户选择的产品)
  2. 需要支持应用程序没有数据历史记录的每个新产品

1 个答案:

答案 0 :(得分:0)

可能不是最好的解决方案,但也许您可以尝试推荐系统?更具体地说,您可以尝试Item-Item Content-based推荐系统。这个想法是从项目本身(在您的情况下,项目代表产品说明)中提取特征。建立了项目配置文件,这些配置文件是项目的功能,可以是tf-idf权重,也可以只是频率加权方案。为每个项目构建完这些功能后,您要查找与给定项目最相似的项目。可以使用一些相似性度量(例如余弦距离或jaccard距离)来完成此操作。返回的相似度得分最高的商品将表示大多数相似商品。排名最高的产品可能与给定的输入产品相同。

在尝试上述方法之前,只需通过提供两个产品标题作为参数,对所有项目对都简单地使用cosine distance。阅读this answer