用于自然语言处理的Python与Java

时间:2012-02-13 04:53:57

标签: java python text nlp similarity

我一直在研究java以找到两个文档之间的相似性。我更喜欢找到语义相似性,但还没有努力找到它。我使用以下方法。

  1. 提取术语/令牌(我使用带有wordnet的JAWS删除同义词,从而改善了相似之处)
  2. 制作术语文档矩阵
  3. LSA
  4. 余弦相似度
  5. 当我查看几个stackoverflow页面时,我得到了一些python实现的链接。

    我想知道python是否是一种更好的语言来查找文本相似性,并且还想知道我是否可以在python中找到两个文档之间的语义相似

1 个答案:

答案 0 :(得分:2)

假设你没有限制你选择语言的平台限制,你应该根据你最熟悉的东西选择你的语言(我自己更喜欢Python),并且你的应用程序有最好的库。 (正如@GregHewgill所指出的那样,Python工具(Natural Language Toolkit)是成熟而全面的。)

因此,虽然我个人会选择Python,但实际上你必须自己选择。

==编辑==

关于Java NLP库的这个question可能会帮助您决定是否可以使用Java进行分析;最佳答案有一个你可以调查的清单。如果没有关于您的问题集的更多信息,我无法提供更具体的建议。