用于构造基本句子的常用词的数据集

时间:2012-05-22 15:12:42

标签: dataset nlp linguistics

所以我正在制作一个冰箱磁铁"交互式,我试图找出一个有效的数据集,供用户拖动。

我正在使用这个数据集..但它不是很好

http://en.wikipedia.org/wiki/Most_common_words_in_English

和想法在哪里找到更有效的单词集

1 个答案:

答案 0 :(得分:2)

您可以自己做的一种方法是下载文本语料库,然后运行一个脚本来计算出现的每个单词的数量。然后选择一些值 N 并将每个计数除以 N (向下舍入)。对于每个单词,为每个分开的计数制作磁铁。你应该根据你想要的磁铁数来选择 N

这具有使磁体的分布与单词的分布匹配的优点。例如,如果“the”出现1000次,“man”出现320次,“行走”150次,“跳过”2次,然后你选择 N 为100,那么你最终会制作10个“磁铁”,3个“人”,1个“走路”,0个“跳过”。

您可能还想采用计数的对数来尝试减少偏差。由于单词分布为Zipfian,因此每次“散步”可能会产生数以千计的“磁铁”。

最后,关于这种方法的好处是你可以在特定的域上运行它来为该域设置一个单词磁体。例如,如果你想制作听起来像新闻故事的单词磁铁,那么就在新闻故事集上运行它。如果你想制作听起来像童话故事的磁铁,那就把它放在童话故事集上。

如果你真的想要得到幻想,你可以使用类似TF-IDF之类的东西挑选出最能代表该领域的词语,然后将它们与常用的功能词混合起来。