从用户提交的文本中提取关键字的好方法是什么?

时间:2011-03-16 07:43:15

标签: ruby metadata sinatra keyword text-mining

我正在建立一个网站,允许用户通过图形化表示支持和反对特定问题的论据来理解辩论。 (Wrangl

我想对这些辩论进行分类,以便更容易找到并联系起来。我不想通过要求他们在看到任何好处之前添加标签和类别来激怒创建辩论的人,所以我正在寻找一种自动提取关键字的方法。

采用辩论的标题和描述(以及可能有一些参数本身的内容)的好方法是拉出十个强关键字,可以用作元数据将类似的辩论连接在一起,或者即使在可以查看辩论的HTML页面的头部中“meta”关键字标签的内容也是如此。例如。 Datamapper vs ActiveRecord

该站点使用DataMapper进行数据存储,使用Sinatra在Ruby中编码。我理想地寻找可以在Heroku上运行的东西(我没有办法动态地将文件写入磁盘),我会考虑一个Web服务,一个API或者理想的Ruby宝石。

3 个答案:

答案 0 :(得分:7)

也许你可以使用TextAnalyzer

答案 1 :(得分:2)

我知道你想要找到一种简单的方法来实现这一点,我最近潜入了NLP(自然语言处理)和文本挖掘的世界,这是一个令人生畏的过程,其中大多数远远超过了我的头。

虽然我设法编写了一些类似于你正在寻找的功能,尽管我是用PHP编写的。我建议,如果你想为你的项目量身定做(Wrangl),那就自己动手吧。

使用Porter stemming algorithm,我确信会有Ruby代码。 Ruby Porter stemmer

答案 2 :(得分:2)

您可以尝试salsaAPI自动提取关键字并对辩论进行分类!