我希望在我写的程序中进行一些文本分析。我正在寻找原始形式的替代文本来源,类似于维基百科转储(download.wikimedia.com)中提供的文本。
我宁愿不必经历抓取网站的麻烦,尝试解析HTML,提取文本等。
答案 0 :(得分:7)
答案 1 :(得分:3)
NLTK提供了一个简单的Python API来访问many text corpora,包括Gutenberg,路透社,莎士比亚等。
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
答案 2 :(得分:0)
gutenberg project有各种格式的电子书(包括纯文本)