英语语料库需要

时间:2014-07-23 15:02:23

标签: nlp corpus

我正在寻找免费的全文英文语料库,它应该只包含没有任何注释的纯文本(例如英文书籍)。

拜托,任何帮助?

2 个答案:

答案 0 :(得分:1)

你知道“Project Gutenberg”吗?有很多原始文本格式的书籍。

http://www.gutenberg.org/

答案 1 :(得分:0)

NLTK中的布朗语料库:

>>> from nltk.corpus import brown
>>> for i in brown.sents():
...     print i
...     break
... 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.']