文档集合中共同出现的单词之间的语义相关性

时间:2013-12-19 13:53:19

标签: java lucene semantic-analysis

我不确定我的问题本身是否正确在这里发布,但我想我会试一试。

我正在开展一个项目,我从公共知识库中获取文本数据,并希望使用此文本自动扩展基于标记的搜索查询,并使用与原始查询相关的其他术语。公共知识库基本上是来自维基百科的数据集合;在我的案例中,有374万篇文章的摘要。

在开始时,我只是根据原始查询执行搜索,从我的查询中获取描述匹配的文章中使用的单词,并进行简单的术语频率计算以获得N个最常用的术语。

这似乎是一个简单的想法,但是当我测试更多查询时,我开始遇到问题。很明显,我需要对自定义文本集进行某种语义分析,但我不知道在哪里开始做这样的事情。我在网上找到的任何应该进行语义分析的工具“只适用于预定义的文本集合。如上所述:我需要一些可以处理自定义集合的东西,然后使用该索引来执行搜索。

有任何想法或建议吗?

0 个答案:

没有答案