我被要求制作一个软件,用于加密和解密基于frequencies字母的“普通英语”文本。
问题是我在哪里可以找到官方频率匹配的文本样本?
到目前为止,我已尝试"War and Peace" by Lev Tolstoy,但效果不佳..
LE:我不需要一个单词列表,我需要一个文本样本来进行一些处理 LE2:目标是在2000个字符长的文本中从26开始猜测20。
答案 0 :(得分:2)
查看infochimps;他们有一堆可用的免费数据集。
答案 1 :(得分:2)
您正在搜索English text corpora,例如http://faculty.washington.edu/ebender/corpora/corpora.html#modern。在那里列出的内容中,我知道Project Gutenberg是免费的;许多其他人可能不会。
我不确定官方频率是什么意思 - 频率点与你在野外发现的频率相匹配,如果没有,那就是频率表的问题。
答案 2 :(得分:1)