我在哪里可以找到在网络上转储原始文本?

时间:2010-08-02 13:44:42

标签: parsing text nlp wikipedia

我希望在我写的程序中进行一些文本分析。我正在寻找原始形式的替代文本来源,类似于维基百科转储(download.wikimedia.com)中提供的文本。

我宁愿不必经历抓取网站的麻烦,尝试解析HTML,提取文本等。

3 个答案:

答案 0 :(得分:7)

您在寻找什么样的文字?

Project Gutenberg有许多.txt格式的免费电子书(小说和非小说)。

他们还有large DVD images本书可供下载。

答案 1 :(得分:3)

NLTK提供了一个简单的Python API来访问many text corpora,包括Gutenberg,路透社,莎士比亚等。

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

答案 2 :(得分:0)

gutenberg project有各种格式的电子书(包括纯文本)