应用错误收集

哪里可以获得频率排序字典可用于免费软件？

时间：2011-10-16 01:31:24

标签： database dictionary compression

我需要一个频率排序的字典用于压缩程序，（许可或GPLv3兼容许可证），但是没有丝毫线索在哪里获得这样的许可证（所有版本都有丢失或不良的通知）。有人会有建议去哪一个？我已经找了一段时间，但我唯一的选择似乎是创造我自己的，我怀疑使用电子书的有效质量。（它不能完全代表所有英语，更不用说现代英语，我的目标。）

PS：大约200,000-50,000个单词是一个很好的目标。巨大的文件不是一个好主意。

2 个答案:

答案 0 :(得分：3)

你想要的是一个基于大量代表性英文文本的单字组分发。 “unigram发行版”是你称之为“带频率字典”的正式术语。

谷歌在许可证下发布了大量的ngrams集合。

请参阅http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html。

或http://books.google.com/ngrams/datasets。

如果你不需要所有那些模糊不清的单词，那么只需按照你想要的分配即可。

至于许可，甚至FSF都说GPL不适用于词典。它们不是“来源”。所以这里的CC许可证完全可以合并到任何地方。

如果您不关心具有完全代表性的数据，请下载维基百科转储和用于提取文本的Ruby工具，并执行您自己的unigram分发。

如果您想要有用的结果，无论您选择什么，您都将使用大量数据。

答案 1 :(得分：1)

看看这里：http://norvig.com/ngrams/

包含这个，这可能是你需要的：

4.9 MB count_1w.txt - 1/3百万最常用的单词，全部小写，带计数。（在本章中称为vocab_common，但我在此更改了文件名。）
5.6 MB count_2w.txt - 1/4百万最常见的双字（小写）双字母，有计数。