应用错误收集

用于文本聚类和自动摘要的开源工具

时间：2011-03-01 19:34:15

标签： open-source text-processing

我的最新项目需要测量文本文档之间的相似性，并给每个文档提供一些简短的标题。有那些开源库吗？或者如果我必须自己构建它，是否有关于主题的任何教程？我应该使用哪些工具？

2 个答案:

答案 0 :(得分：2)

您可以使用其中一个edit distance函数来衡量相似度，如果您进行搜索，则可以使用填充语言实现，例如C# Leventshtein distance.。

文档之间的相似性也可能是Information Retrieval的问题，Lucene是一个受欢迎的库vector space model。 Lucene使用natural language processing来确定文档和查询之间的相似性，还可以用于度量两个文档之间的相似性。 Java和C＃中也有实现，其他语言也有端口。

问题也可能是NLTK的问题，我使用过的库是LingPipe和{{3}}。这些图书馆的目标远不止相似性，它们的学习曲线陡峭，而且可能过度。但是，这些可能有助于提取文档的简短标题。

答案 1 :(得分：2)

测量文本文档之间的相似性，您可以从较早的文档向量相似性技术（check vector space model）开始。您可以使用潜在的语义索引。关于文件相似性的Here is one paper。

文本摘要比相似性度量更难，因为你必须为人类产生有意义的东西。对于与文本处理相关的所有基本知识，OpenNLP是一个很好的库。与文本摘要相关的更多论文是here，可能是好的开始。