我有一个很大的字典文件,dic.txt(实际上是SOWPODS),每行有一个英文单词。我想自动将这个文件分成3个不同的文件easy_dic.txt(我们每天使用的最常见的单词 - 一个16岁的词汇),medium_dic.txt(这些单词在常用中并没有那么多,但许多人都知道 - 知识一个30岁的减去easy_dic.txt中的单词,hard_dic.txt(非常深奥的单词,只有专业的拼字游戏玩家会知道)。什么是最简单的方法(您可以使用互联网上的任何资源)来实现这一目标?
答案 0 :(得分:4)
Google拥有合适的工具:),并分享其数据库!
Ngram viewer是检查和比较文学,杂志等词语出现频率的工具。
您可以下载数据库,并从here训练您的词典。
HTH!
BTW这个工具非常有趣,可以发现这个词的出生和消失日期。
答案 1 :(得分:0)
除了最后一步之外,您还可以简单地处理直方图并从所有直方图中删除一个单词,除了具有最高点击量的单词。然后你已经有了一个单词列表而没有使用外部字典文件。
答案 2 :(得分:0)
下载Wikipedia转储,使用一些Lingpipe工具(最佳数据结构)学习单词频率。检查字典频率分布中的单词,然后将它们分成3组。