使用标签对文档进行分类

时间:2011-04-05 13:45:27

标签: algorithm machine-learning data-mining document-classification

我有大量的文件(主要是pdf和doc)我想要分类,所以我可以根据某些标签搜索它们。这些标签可以是我自己的(我将标签放到文档中)或从文本中提取。

我刚刚看到与此相关的帖子(Classify data using Apache Mahout),但也许有更简单的事情。

2 个答案:

答案 0 :(得分:3)

Mahout对您的问题可能过度 - 但您可以通过使用OpenNLP获得相当快速,简单的解决方案。

http://opennlp.sourceforge.net/api/index.html

具体来说,请查看opennlp.tools.doccat包。从本质上讲,您必须经历并手动标记您想要的每个类别的一小组(ish)项目。如果它们非常独特,您可以使用小样本。

您可以使用DocumentCategorizerME.train()静态函数来训练文档集合,其中每个文档都需要一个类别标记和要训练的文本块。然后,您可以使用经过训练的模型初始化DocumentCategorizerME并开始对所有其他文档进行分类。

一旦你这样做,你可以(我认为)将模型写入文件,这样你就不必再这样做了。

答案 1 :(得分:0)

extracting keywords and classifying webpages上的这篇文章是相关的,可能会有所帮助。在您的示例中,您可以使用标签代替关键字提取部分(尽管您可能希望将两者结合使用)。 Weka易于使用,我绝对建议您一试。