哪里可以获得频率排序字典可用于免费软件?

时间:2011-10-16 01:31:24

标签: database dictionary compression

我需要一个频率排序的字典用于压缩程序,(许可或GPLv3兼容许可证),但是没有丝毫线索在哪里获得这样的许可证(所有版本都有丢失或不良的通知)。有人会有建议去哪一个?我已经找了一段时间,但我唯一的选择似乎是创造我自己的,我怀疑使用电子书的有效质量。 (它不能完全代表所有英语,更不用说现代英语,我的目标。)

PS:大约200,000-50,000个单词是一个很好的目标。巨大的文件不是一个好主意。

2 个答案:

答案 0 :(得分:3)

你想要的是一个基于大量代表性英文文本的单字组分发。 “unigram发行版”是你称之为“带频率字典”的正式术语。

谷歌在许可证下发布了大量的ngrams集合。

请参阅http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

http://books.google.com/ngrams/datasets

如果你不需要所有那些模糊不清的单词,那么只需按照你想要的分配即可。

至于许可,甚至FSF都说GPL不适用于词典。它们不是“来源”。所以这里的CC许可证完全可以合并到任何地方。

如果您不关心具有完全代表性的数据,请下载维基百科转储和用于提取文本的Ruby工具,并执行您自己的unigram分发。

如果您想要有用的结果,无论您选择什么,您都将使用大量数据

答案 1 :(得分:1)

看看这里:http://norvig.com/ngrams/

包含这个,这可能是你需要的:

  1. 4.9 MB count_1w.txt - 1/3百万最常用的单词,全部小写,带计数。 (在本章中称为vocab_common,但我在此更改了文件名。)
  2. 5.6 MB count_2w.txt - 1/4百万最常见的双字(小写)双字母,有计数。