应用错误收集

Python的NLTK与相关的Java库有什么关系？

时间：2011-04-08 01:52:13

标签： java python information-retrieval nltk wordnet

我使用过LingPipe，Stanford的NER，RiTa和各种句子相似性库，用于以前的Java项目，这些项目主要关注大量英文文本的文本（预处理）处理（索引，xml标记，主题检测等）（大约10,000个文档，总计为> 1gb的文本）。也许我是一个糟糕的Java程序员，但是当我切换到不同的语料库时，我发现自己输入了大量代码并使用了大量的库。总的来说，我觉得这个工作可能有更好的工具。

我想我的问题是，我是否可以从切换到Python和NLTK进行信息检索/语言处理中获益？或者是否有足够的利弊使其非常主观？ NLTK是否足够直观，可以快速学习？

我的手脏了，但接下来的几天我将无法使用个人电脑。

2 个答案:

答案 0 :(得分：12)

NLTK适用于自然语言处理。我已将它用于我的数据挖掘项目。您可以训练自己的分析仪。学习曲线并不陡峭。

NLTK为您的分析仪培训提供了巨大的语料库。您还可以提供自己的一组数据，例如，标记了词性的日记。

因为python非常适合文本处理，所以你可以尝试一下。此外，它还有一个在线tutorial

请不要忘记使用python 2.x版本。试试python 2.6。 NLTK可能不适合python 3.x

答案 1 :(得分：7)

如果您已经了解NLP的基础知识，我认为NLTK应该很容易上手。它有一堆文档，2本书，我写过很多文章和文章。关于streamhacker.com的教程。如果您不希望丢失Java包中的任何内容，理论上可以使用Jython（也许是execnet）将其与NLTK结合使用。

您还可以查看Pattern库。