我不确定我的问题本身是否正确在这里发布,但我想我会试一试。
我正在开展一个项目,我从公共知识库中获取文本数据,并希望使用此文本自动扩展基于标记的搜索查询,并使用与原始查询相关的其他术语。公共知识库基本上是来自维基百科的数据集合;在我的案例中,有374万篇文章的摘要。
在开始时,我只是根据原始查询执行搜索,从我的查询中获取描述匹配的文章中使用的单词,并进行简单的术语频率计算以获得N个最常用的术语。
这似乎是一个简单的想法,但是当我测试更多查询时,我开始遇到问题。很明显,我需要对自定义文本集进行某种语义分析,但我不知道在哪里开始做这样的事情。我在网上找到的任何应该进行语义分析的工具“只适用于预定义的文本集合。如上所述:我需要一些可以处理自定义集合的东西,然后使用该索引来执行搜索。
有任何想法或建议吗?