应用错误收集

时间：2010-01-30 17:48:45

标签： python nlp nltk

我最近在nltk中扩展了名称语料库，并想知道如何将我拥有的两个文件（male.txt，female.txt）转换为语料库，以便我可以使用现有的nltk.corpus访问它们方法。有没有人有任何建议？

非常感谢，詹姆斯。

答案 0 :(得分：4)

正如the readme所说，名称语料库不在公共领域 - 您应该发送一封电子邮件，其中包含您对语料库作者所做的任何更改（地址在该文件中）。除了法律和礼貌的细节之外，您可以简单地用您自己的文件替换其中一个或两个文件，它们的格式非常简单（每行一个名称，允许注释[[并忽略]]并以{{1开头}}）。

要安装一个全新的语料库而不仅仅是调整现有语料库，您可以从给定here的文档开始。

答案 1 :(得分：1)

通过查看nltk.corpus中的源代码，然后查看语料库（位于 / home / [user] / nltk_data / corpora / names - 来了解语料库阅读的工作原理 - 这个可能会出现在My Documents for XP和User for Win7用户中。）

语料库的结构及其相关功能将很好地理解如何使用NLTK中可用的不同语料库。

在我的例子中，我查看了nltk.corpus源代码中的名称变量，并对WordListCorpusReader函数感兴趣，因为名称语料库只是一个单词列表。

答案 2 :(得分：0)

Alex是对的，从文档开始，找出哪些语料库阅读器适用于您的语料库。在给定语料库文件的路径的情况下，简单地实例化它。正如您在文档中看到的那样，内置语料库只是特定语料库阅读器类的实例。看看nltk.corpus包中的代码也应该有用。