如何从Haskell中的文本块中提取关键字

时间:2011-11-12 22:02:43

标签: haskell nlp

所以我知道这是一个很大的主题,但我需要接受一大块文本,并从中提取最有趣的关键字。文字来自电视字幕,因此主题可以从新闻到体育到流行文化参考。可以提供文本来自的节目类型。

我有一个想法是将文本与我知道有趣的术语词典相匹配。

Haskell的哪些库可以帮助我解决这个问题?

假设我有一个有趣术语的词典,以及一个存储它们的数据库,你是否建议在文本中匹配关键词?

我有没有想到的明显方法?

2 个答案:

答案 0 :(得分:2)

答案 1 :(得分:1)

要扩展bpgergo答案(但我没有任何特定于haskell的信息),将文档输入关系数据库并使用SOLR / lucene或sphinx对它们进行索引非常简单,其中任何一个都应该有一个词干分析器他们的默认/建议配置。然后,您可以搜索哪些文档具有“有趣术语”列表中的对,三元组等

你可能会看看命名实体识别,统计上不寻常的短语检测,自动标记生成,这样的主题。 Lingpipe是一个很好的起点,也是这些书:

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html