我刚刚编写了一个基于学习数据进行对话的马尔可夫链。我喜欢在线提供大量文本数据的资源,但似乎找不到(大多数网站如维基百科都有很多垃圾,而不是纯文本文件)。
是否有任何网站会有大量适合测试马尔可夫链的文本文件?
答案 0 :(得分:2)
gutenberg.org可能会为您提供一些资源。例如,这里似乎是一堆Moby Dick,文本文件形式。
答案 1 :(得分:1)
如果你担心的只是从维基百科中删除标签,那么如何使用这样的源代码来删除标签呢?
答案 2 :(得分:0)
您是否尝试过NLTK文本语料库?
答案 3 :(得分:0)
考虑安然电子邮件数据集:https://www.cs.cmu.edu/~./enron/
它也托管在亚马逊AWS上:https://aws.amazon.com/datasets/enron-email-data/