应用错误收集

如何访问Java中的布朗语料库（又名NLTK之外）

时间：2015-06-06 17:03:22

标签： java nlp nltk corpus tagged-corpus

我正在尝试编写一个在Java中使用自然语言词性的程序。我一直在谷歌搜索，并没有找到整个布朗语料库（或其他标记词语的语料库）。我一直在寻找我不感兴趣的NLTK信息。我希望能够将数据加载到Java程序中并总结单词的出现次数（以及它们成为词性的可能性百分比）。 / p>

我不想要使用像Stanford那样的Java库，我想自己使用语料库数据。

3 个答案:

答案 0 :(得分：4)

数据是数据。 NLTK数据不是模糊，加密或困难的格式。只需编写java代码即可阅读。您可能会在WEKA中找到快捷方式，或者您可能没有。

答案 1 :(得分：4)

这是指布朗语料库下载页面的链接：http://www.nltk.org/nltk_data/

所有文件都是zip文件。数据格式在Brown Corpus Wikipedia中描述。我不知道还有什么可说的。从那里事情应该是显而易见的。

编辑：如果你想要原始的源数据，我认为那里有一些有他们数据的公司。但通常重点是让别人做抽样。另外，请注意维基百科条目：＆＃34;每个样本都是从文章或其他单位选择的随机句子边界开始的，并且在2,000个单词之后继续到第一个句子边界。＆＃34;所以布朗语料库的数据基本上是随机的。即使您有原始文本，也可能无法猜测他们在哪里采样。

答案 2 :(得分：2)

如果您不想弄乱NLTK界面：布朗语料库已存放在 Internet Archive （archive.org）。在https://archive.org/details/BrownCorpus，您将找到包含整个语料库的zip存档的链接。（也是一个torrent链接，但它似乎不值得3.2 MB的麻烦。）