是否有任何开源引擎项目可以对在线文本或文章进行分类。或检查两篇文章的相似性。
例如,1.i有十种不同的文字或文章。然后引擎能够将这篇文章分类到不同的领域,如体育,娱乐,政治。
2.两篇文章描述了同一事件。引擎能够将它们组合在一起。将它们视为同一篇文章
谢谢
答案 0 :(得分:0)
您可以尝试使用Alchemy API。虽然不是开源,但有一个免费的使用层。在示例1的情况下,他们的主题分类和概念标记可能是有用的。在示例2的情况下,任何分类器如贝叶斯,朴素贝叶斯等都可以使用,尽管有训练。 Weka也是一种广泛使用的工具。
答案 1 :(得分:0)
看看Apache Mahout(开源,java)。