与文本文件中的主题相关的内容

时间:2016-01-17 12:52:13

标签: lucene nlp text-mining

我们是否有任何API可以识别与特定主题相关的文本文件中的内容?

例如,我有一个包含5000行文本的文本文件。

我想提取与TOPIC ABC相关的文字。 lucene或任何其他api都这样做吗?有什么想法吗?

我使用Lucene来识别包含特定WORD的文档,但是想知道我们是否有任何api从与特定主题相关的文件中提取内容。

1 个答案:

答案 0 :(得分:1)

这是一个相当广泛的问题,但根据您提供的信息,很明显您有几个选择。

选项1:使用API​​

你可以使用Thomson Reuters Open Calais platform这是我见过的最好的开发者。但是,我可以想象随着时间的推移会变得昂贵。他们在自己的网站上提供demo,值得一试。

选项2:扩展Lucene的VSM

当我说延长Lucene时,我并不意味着你需要。有一些开源项目可以随时利用。例如,Luence-LDA允许通过Latent Dirichlet分配(LDA)进行查询。这个特殊的项目在大约3/4年内没有更新过,所以它可能想要分叉或建立自己的项目。