是否可以利用搜索引擎进行分类?

时间:2014-03-27 08:29:48

标签: lucene machine-learning search-engine classification

我需要对大量文件进行分类。我已经看到许多用于分类的经典机器学习算法。但突然之间,我问自己,我们可以使用搜索引擎来做到这一点吗?

我粗略的想法是:

我们有几个标签文件夹,例如:

  • 文件夹1 =类别1
  • 文件夹2 =类别2
  • ...

然后,对于每个未标记的文档,我们将其用作标准,让搜索引擎搜索每个文件夹,返回结果最多的文档应该是目标类别。

我不确定这是否可行。我不知道如何为一组文档创建搜索引擎,Bing或Google可以为它定制吗?或者我是否需要使用Lucene或其他东西构建一个?

1 个答案:

答案 0 :(得分:0)

是的,搜索引擎存储了进行文本分类所需的大部分信息,因此您可以在它们之上构建一些算法。

对于Lucene / Solr,请查看this commiter完成的工作。该代码已在Solr / Lucene 4.6中使用。我在一个实例中使用它并取得了良好的效果。