我需要一个频率排序的字典用于压缩程序,(许可或GPLv3兼容许可证),但是没有丝毫线索在哪里获得这样的许可证(所有版本都有丢失或不良的通知)。有人会有建议去哪一个?我已经找了一段时间,但我唯一的选择似乎是创造我自己的,我怀疑使用电子书的有效质量。 (它不能完全代表所有英语,更不用说现代英语,我的目标。)
PS:大约200,000-50,000个单词是一个很好的目标。巨大的文件不是一个好主意。答案 0 :(得分:3)
你想要的是一个基于大量代表性英文文本的单字组分发。 “unigram发行版”是你称之为“带频率字典”的正式术语。
谷歌在许可证下发布了大量的ngrams集合。
请参阅http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html。
或http://books.google.com/ngrams/datasets。
如果你不需要所有那些模糊不清的单词,那么只需按照你想要的分配即可。
至于许可,甚至FSF都说GPL不适用于词典。它们不是“来源”。所以这里的CC许可证完全可以合并到任何地方。
如果您不关心具有完全代表性的数据,请下载维基百科转储和用于提取文本的Ruby工具,并执行您自己的unigram分发。
如果您想要有用的结果,无论您选择什么,您都将使用大量数据。
答案 1 :(得分:1)
看看这里:http://norvig.com/ngrams/
包含这个,这可能是你需要的: