如何自动对字典中的单词进行分类?

时间:2011-04-24 07:59:01

标签: language-agnostic data-mining classification

我有一个很大的字典文件,dic.txt(实际上是SOWPODS),每行有一个英文单词。我想自动将这个文件分成3个不同的文件easy_dic.txt(我们每天使用的最常见的单词 - 一个16岁的词汇),medium_dic.txt(这些单词在常用中并没有那么多,但许多人都知道 - 知识一个30岁的减去easy_dic.txt中的单词,hard_dic.txt(非常深奥的单词,只有专业的拼字游戏玩家会知道)。什么是最简单的方法(您可以使用互联网上的任何资源)来实现这一目标?

3 个答案:

答案 0 :(得分:4)

Google拥有合适的工具:),并分享其数据库!

Ngram viewer是检查和比较文学,杂志等词语出现频率的工具。

您可以下载数据库,并从here训练您的词典。

HTH!

BTW这个工具非常有趣,可以发现这个词的出生和消失日期。

答案 1 :(得分:0)

  • 以计算机可读的形式提供一些书籍(最好是三个类别)。
  • 为这些书中的所有单词创建直方图。
  • 合并每个类别的所有图书的直方图。
  • 处理字典时,请检查该字词具有最高计数的直方图,并将该字词放在此类别中。

除了最后一步之外,您还可以简单地处理直方图并从所有直方图中删除一个单词,除了具有最高点击量的单词。然后你已经有了一个单词列表而没有使用外部字典文件。

答案 2 :(得分:0)

下载Wikipedia转储,使用一些Lingpipe工具(最佳数据结构)学习单词频率。检查字典频率分布中的单词,然后将它们分成3组。