应用错误收集

时间：2011-11-12 22:02:43

标签： haskell nlp

所以我知道这是一个很大的主题，但我需要接受一大块文本，并从中提取最有趣的关键字。文字来自电视字幕，因此主题可以从新闻到体育到流行文化参考。可以提供文本来自的节目类型。

我有一个想法是将文本与我知道有趣的术语词典相匹配。

Haskell的哪些库可以帮助我解决这个问题？

假设我有一个有趣术语的词典，以及一个存储它们的数据库，你是否建议在文本中匹配关键词？

我有没有想到的明显方法？

答案 0 :(得分：2)

我会阻止这些单词中的单词然后搜索dict中的所有术语只有两个随机库：

答案 1 :(得分：1)

要扩展bpgergo答案（但我没有任何特定于haskell的信息），将文档输入关系数据库并使用SOLR / lucene或sphinx对它们进行索引非常简单，其中任何一个都应该有一个词干分析器他们的默认/建议配置。然后，您可以搜索哪些文档具有“有趣术语”列表中的对，三元组等

你可能会看看命名实体识别，统计上不寻常的短语检测，自动标记生成，这样的主题。 Lingpipe是一个很好的起点，也是这些书：