什么是车辆搜索的最佳数据挖掘方法?

时间:2009-04-23 17:46:53

标签: data-mining site-mining

我正在尝试建立一个搜索引擎,通过在线车辆分类,如Oodle,eBay马达和craigslist。我还有一个关于它们的标准车辆名称和规格的大型数据库。我想做的是通过分类网站找到的每条记录,能够准确确定哪种车型,风格(来自我的数据库)。例如,我的数据库中福特卡车的标准名称是: 2003福特F150。

然而,在分类网站上,人们可能会提到:“2003 Ford F 150”或“2003 Ford f-150”或“03 Ford truck 150”。是否有一种有效的数据挖掘/文本分类算法能够将这些文本标准化为上述标准名称?

2 个答案:

答案 0 :(得分:1)

您可以使用Levenshtein distance将找到的字符串与数据库记录进行匹配。

另一个(可能更好)的想法是将字符串标记化并使用term vector model作为车辆名称。这样您就可以使用余弦相似性来查找相关匹配。

答案 1 :(得分:0)

如果你要开发一个整体搜索引擎,旨在扩大使用和规模,你需要一些强大的东西来支持你的查询。

如果你要使用编辑距离,Bed-trees为你的索引结构提供了一个很好的选择。另一种好的方法是使用Levenshtein automata,具体取决于数据集的大小。 Levenshtein automatas也非常擅长提供自动完成功能,您可能需要自开发搜索引擎。

编辑距离的另一种方法是使用n-gram与Jaccard索引相结合。对于这种方法,您可以使用Minhash + LSH。此外,您可以使用Jaccard作为考虑三角不等式的距离度量(1 - Jaccard索引),因此可以在度量树中使用,例如VP-tree

其中一种方法肯定会对您有所帮助。