应用错误收集

NLP - 确定一段文字是否在谈论某个特定主题？

时间：2014-06-13 03:02:04

标签： java nlp classification stanford-nlp information-retrieval

我有一个Java应用程序，我希望能够实时确定给定的文本是否在讨论作为查询提供的主题。

我为此研究的一些技术是使用open-nlp和Stanford-NLP coref检测等软件包进行共参考检测，但这些模型需要很长时间才能加载，并且在生产应用程序中似乎不实用环境。是否有可能执行共参考分析，以便给定一段文本和一个主题，我可以得到一个布尔答案，文本正在讨论该主题？

除了需要经过训练的语料库的文档分类外，是否有其他技术可以帮助我实现这样的目标？

2 个答案:

答案 0 :(得分：0)

我建议看看Weka。它是用Java编写的，因此可以很好地适应您的环境，可以更快地满足您的需求，拥有大量工具，并提供UI和API。如果您正在考虑无监督的方法（即没有任何预先分类语料库的学习方法），这里有一篇有趣的论文：http://www.newdesign.aclweb.org/anthology/C/C00/C00-1066.pdf

您还可以在Google上搜索“无监督的文本分类/信息检索”。你会得到很多方法。您可以选择最容易找到的那个。

答案 1 :(得分：0)

对于每个主题（如果它们是预定义的），您可以创建术语列表，并为每个句子检查句子的余弦相似度和每个主题列表，并向用户显示最接近的主题