用于文本聚类和自动摘要的开源工具

时间:2011-03-01 19:34:15

标签: open-source text-processing

我的最新项目需要测量文本文档之间的相似性,并给每个文档提供一些简短的标题。有那些开源库吗?或者如果我必须自己构建它,是否有关于主题的任何教程?我应该使用哪些工具?

2 个答案:

答案 0 :(得分:2)

您可以使用其中一个edit distance函数来衡量相似度,如果您进行搜索,则可以使用填充语言实现,例如C# Leventshtein distance.

文档之间的相似性也可能是Information Retrieval的问题,Lucene是一个受欢迎的库vector space model。 Lucene使用natural language processing来确定文档和查询之间的相似性,还可以用于度量两个文档之间的相似性。 Java和C#中也有实现,其他语言也有端口。

问题也可能是NLTK的问题,我使用过的库是LingPipe和{{3}}。这些图书馆的目标远不止相似性,它们的学习曲线陡峭,而且可能过度。但是,这些可能有助于提取文档的简短标题。

答案 1 :(得分:2)

测量文本文档之间的相似性,您可以从较早的文档向量相似性技术(check vector space model)开始。您可以使用潜在的语义索引。关于文件相似性的Here is one paper

文本摘要比相似性度量更难,因为你必须为人类产生有意义的东西。对于与文本处理相关的所有基本知识,OpenNLP是一个很好的库。与文本摘要相关的更多论文是here,可能是好的开始。