我正在尝试编写一个在Java中使用自然语言词性的程序。我一直在谷歌搜索,并没有找到整个布朗语料库(或其他标记词语的语料库)。我一直在寻找我不感兴趣的NLTK信息。我希望能够将数据加载到Java程序中并总结单词的出现次数(以及它们成为词性的可能性百分比)。 / p>
我不想要使用像Stanford那样的Java库,我想自己使用语料库数据。
答案 0 :(得分:4)
数据是数据。 NLTK数据不是模糊,加密或困难的格式。只需编写java代码即可阅读。您可能会在WEKA中找到快捷方式,或者您可能没有。
答案 1 :(得分:4)
这是指布朗语料库下载页面的链接:http://www.nltk.org/nltk_data/
所有文件都是zip文件。数据格式在Brown Corpus Wikipedia中描述。我不知道还有什么可说的。从那里事情应该是显而易见的。
编辑:如果你想要原始的源数据,我认为那里有一些有他们数据的公司。但通常重点是让别人做抽样。另外,请注意维基百科条目:"每个样本都是从文章或其他单位选择的随机句子边界开始的,并且在2,000个单词之后继续到第一个句子边界。"所以布朗语料库的数据基本上是随机的。即使您有原始文本,也可能无法猜测他们在哪里采样。
答案 2 :(得分:2)
如果您不想弄乱NLTK界面:布朗语料库已存放在 Internet Archive (archive.org)。在https://archive.org/details/BrownCorpus,您将找到包含整个语料库的zip存档的链接。 (也是一个torrent链接,但它似乎不值得3.2 MB的麻烦。)