用于对文本或文章进行分类的开源引擎

时间:2012-06-20 12:29:24

标签: web-applications text open-source artificial-intelligence

是否有任何开源引擎项目可以对在线文本或文章进行分类。或检查两篇文章的相似性。

例如,

1.i有十种不同的文字或文章。然后引擎能够将这篇文章分类到不同的领域,如体育,娱乐,政治。

2.两篇文章描述了同一事件。引擎能够将它们组合在一起。将它们视为同一篇文章

谢谢

2 个答案:

答案 0 :(得分:0)

您可以尝试使用Alchemy API。虽然不是开源,但有一个免费的使用层。在示例1的情况下,他们的主题分类和概念标记可能是有用的。在示例2的情况下,任何分类器如贝叶斯,朴素贝叶斯等都可以使用,尽管有训练。 Weka也是一种广泛使用的工具。

答案 1 :(得分:0)

看看Apache Mahout(开源,java)。