我们是否有任何API可以识别与特定主题相关的文本文件中的内容?
例如,我有一个包含5000行文本的文本文件。
我想提取与TOPIC ABC
相关的文字。 lucene或任何其他api都这样做吗?有什么想法吗?
我使用Lucene来识别包含特定WORD
的文档,但是想知道我们是否有任何api从与特定主题相关的文件中提取内容。
答案 0 :(得分:1)
这是一个相当广泛的问题,但根据您提供的信息,很明显您有几个选择。
选项1:使用API
你可以使用Thomson Reuters Open Calais platform这是我见过的最好的开发者。但是,我可以想象随着时间的推移会变得昂贵。他们在自己的网站上提供demo,值得一试。
选项2:扩展Lucene的VSM
当我说延长Lucene时,我并不意味着你需要。有一些开源项目可以随时利用。例如,Luence-LDA允许通过Latent Dirichlet分配(LDA)进行查询。这个特殊的项目在大约3/4年内没有更新过,所以它可能想要分叉或建立自己的项目。