类别匹配 - 正则表达式vs全文搜索

时间:2012-04-18 15:34:24

标签: c# sql sql-server-2008

我有一个相当大的类别表,其中有1500个类别(其中一些单词包含多个单词),我正在寻找通过标题将新产品与这些类别相匹配的最佳方法。

我一直在寻找使用正则表达式并在关键词的产品描述中循环,但这在尝试一次添加超过一千种产品时效率不高,我也一直在寻找全文搜索(FREETEXT并包含)但FreeText搜索似乎带回了很多结果,因为它匹配产品描述中的任何和所有单词。

是否有人在尝试根据产品描述自动化哪个类别并提供一些建议或指示方面做了类似的事情?

1 个答案:

答案 0 :(得分:1)

所以我理解的问题是,给出描述告诉我这个描述适用于哪个类别?

执行此类工作的常用方法是构建Naive Bayesian Classification流程,并将所有描述放在此处。

这样的分类通常分两个阶段进行。

阶段1:已知描述/类别对用于“训练”分类器。

第2阶段:分类器经过训练后,您可以将其提供给未知数据,然后返回描述与给定类别匹配的概率。

这种方法中的分类器通常非常准确,但鉴于我们正在处理统计信息,错误通常会发生错误