我需要对大量文件进行分类。我已经看到许多用于分类的经典机器学习算法。但突然之间,我问自己,我们可以使用搜索引擎来做到这一点吗?
我粗略的想法是:
我们有几个标签文件夹,例如:
然后,对于每个未标记的文档,我们将其用作标准,让搜索引擎搜索每个文件夹,返回结果最多的文档应该是目标类别。
我不确定这是否可行。我不知道如何为一组文档创建搜索引擎,Bing或Google可以为它定制吗?或者我是否需要使用Lucene或其他东西构建一个?
答案 0 :(得分:0)
是的,搜索引擎存储了进行文本分类所需的大部分信息,因此您可以在它们之上构建一些算法。
对于Lucene / Solr,请查看this commiter完成的工作。该代码已在Solr / Lucene 4.6中使用。我在一个实例中使用它并取得了良好的效果。