所以我知道这是一个很大的主题,但我需要接受一大块文本,并从中提取最有趣的关键字。文字来自电视字幕,因此主题可以从新闻到体育到流行文化参考。可以提供文本来自的节目类型。
我有一个想法是将文本与我知道有趣的术语词典相匹配。
Haskell的哪些库可以帮助我解决这个问题?
假设我有一个有趣术语的词典,以及一个存储它们的数据库,你是否建议在文本中匹配关键词?
我有没有想到的明显方法?
答案 0 :(得分:2)
我会阻止这些单词中的单词然后搜索dict中的所有术语 只有两个随机库:
干http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html
搜索http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html
答案 1 :(得分:1)
要扩展bpgergo答案(但我没有任何特定于haskell的信息),将文档输入关系数据库并使用SOLR / lucene或sphinx对它们进行索引非常简单,其中任何一个都应该有一个词干分析器他们的默认/建议配置。然后,您可以搜索哪些文档具有“有趣术语”列表中的对,三元组等
你可能会看看命名实体识别,统计上不寻常的短语检测,自动标记生成,这样的主题。 Lingpipe是一个很好的起点,也是这些书:
http://alias-i.com/lingpipe/demos/tutorial/read-me.html