我有一个Java应用程序,我希望能够实时确定给定的文本是否在讨论作为查询提供的主题。
我为此研究的一些技术是使用open-nlp和Stanford-NLP coref检测等软件包进行共参考检测,但这些模型需要很长时间才能加载,并且在生产应用程序中似乎不实用环境。是否有可能执行共参考分析,以便给定一段文本和一个主题,我可以得到一个布尔答案,文本正在讨论该主题?
除了需要经过训练的语料库的文档分类外,是否有其他技术可以帮助我实现这样的目标?
答案 0 :(得分:0)
我建议看看Weka。它是用Java编写的,因此可以很好地适应您的环境,可以更快地满足您的需求,拥有大量工具,并提供UI和API。如果您正在考虑无监督的方法(即没有任何预先分类语料库的学习方法),这里有一篇有趣的论文:http://www.newdesign.aclweb.org/anthology/C/C00/C00-1066.pdf
您还可以在Google上搜索“无监督的文本分类/信息检索”。你会得到很多方法。您可以选择最容易找到的那个。
答案 1 :(得分:0)
对于每个主题(如果它们是预定义的),您可以创建术语列表,并为每个句子检查句子的余弦相似度和每个主题列表,并向用户显示最接近的主题