使用ruby创建常用单词或短语列表

时间:2013-05-27 21:59:16

标签: ruby-on-rails ruby redis

寻找关于从nosql数据库中的一堆条目生成常用单词和短语列表的一些建议。基本上我们有一堆由某人发布的帖子,我们想告诉他们“嘿那里。你经常使用这些单词/短语”。

我对这一点感到有点难过。

我的应用程序是ruby on rails,backbone-js和redis。

1 个答案:

答案 0 :(得分:0)

由于不清楚帖子是如何存储的,我只是假设你可以获得所有帖子的数组。

查找最常见的不常见单词的简单算法如下:迭代所有帖子的数组,然后从除了单词之外的任何内容中删除帖子并将其拆分为单词。翻阅条目中的所有单词,并将您看到该单词的次数加1。对所有条目中的所有单词完成后,您将获得一个哈希值,其中包含所有单词的出现次数。删除最常用的单词,这是100 common words的示例。您应该在应用程序中使用更多。按出现次数对它们进行排序,您将获得最常出现的单词。

已实施here。它不会处理您可能想要的posts post等案例。您可以了解Rails如何实现String#singular以获得此行为。

如果你想找到常用的短语会变得更有趣,你可能不得不使用@sawa在评论中指出的某种自然语言处理。我无法想出一个足够快的解决方案。