是否有大量人类文本的资源?

时间:2016-03-14 02:50:15

标签: text markov

我刚刚编写了一个基于学习数据进行对话的马尔可夫链。我喜欢在线提供大量文本数据的资源,但似乎找不到(大多数网站如维基百科都有很多垃圾,而不是纯文本文件)。

是否有任何网站会有大量适合测试马尔可夫链的文本文件?

4 个答案:

答案 0 :(得分:2)

gutenberg.org可能会为您提供一些资源。例如,这里似乎是一堆Moby Dick,文本文件形式。

http://www.gutenberg.org/files/2701/2701.txt

答案 1 :(得分:1)

如果你担心的只是从维基百科中删除标签,那么如何使用这样的源代码来删除标签呢?

http://kopiwiki.dsd.sztaki.hu/

答案 2 :(得分:0)

您是否尝试过NLTK文本语料库?

答案 3 :(得分:0)

考虑安然电子邮件数据集:https://www.cs.cmu.edu/~./enron/

它也托管在亚马逊AWS上:https://aws.amazon.com/datasets/enron-email-data/