如何在Python Natural Language Toolkit中创建自己的语料库?

时间:2010-01-30 17:48:45

标签: python nlp nltk

我最近在nltk中扩展了名称语料库,并想知道如何将我拥有的两个文件(male.txt,female.txt)转换为语料库,以便我可以使用现有的nltk.corpus访问它们方法。有没有人有任何建议?

非常感谢, 詹姆斯。

3 个答案:

答案 0 :(得分:4)

正如the readme所说,名称语料库不在公共领域 - 您应该发送一封电子邮件,其中包含您对语料库作者所做的任何更改(地址在该文件中)。除了法律和礼貌的细节之外,您可以简单地用您自己的文件替换其中一个或两个文件,它们的格式非常简单(每行一个名称,允许注释[[并忽略]]并以{{1开头}})。

要安装一个全新的语料库而不仅仅是调整现有语料库,您可以从给定here的文档开始。

答案 1 :(得分:1)

通过查看nltk.corpus中的源代码,然后查看语料库(位于 / home / [user] / nltk_data / corpora / names - 来了解语料库阅读的工作原理 - 这个可能会出现在My Documents for XP和User for Win7用户中。)

语料库的结构及其相关功能将很好地理解如何使用NLTK中可用的不同语料库。

在我的例子中,我查看了nltk.corpus源代码中的名称变量,并对WordListCorpusReader函数感兴趣,因为名称语料库只是一个单词列表。

答案 2 :(得分:0)

Alex是对的,从文档开始,找出哪些语料库阅读器适用于您的语料库。在给定语料库文件的路径的情况下,简单地实例化它。正如您在文档中看到的那样,内置语料库只是特定语料库阅读器类的实例。看看nltk.corpus包中的代码也应该有用。