Question

我希望在我写的程序中进行一些文本分析。我正在寻找原始形式的替代文本来源，类似于维基百科转储（download.wikimedia.com）中提供的文本。

我宁愿不必经历抓取网站的麻烦，尝试解析HTML，提取文本等。

Answer 1

您在寻找什么样的文字？

Project Gutenberg有许多.txt格式的免费电子书（小说和非小说）。

他们还有large DVD images本书可供下载。

Answer 2

NLTK提供了一个简单的Python API来访问many text corpora，包括Gutenberg，路透社，莎士比亚等。

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

Answer 3

gutenberg project有各种格式的电子书（包括纯文本）