应用错误收集

我不确定我的问题本身是否正确在这里发布，但我想我会试一试。

我正在开展一个项目，我从公共知识库中获取文本数据，并希望使用此文本自动扩展基于标记的搜索查询，并使用与原始查询相关的其他术语。公共知识库基本上是来自维基百科的数据集合;在我的案例中，有374万篇文章的摘要。

在开始时，我只是根据原始查询执行搜索，从我的查询中获取描述匹配的文章中使用的单词，并进行简单的术语频率计算以获得N个最常用的术语。

这似乎是一个简单的想法，但是当我测试更多查询时，我开始遇到问题。很明显，我需要对自定义文本集进行某种语义分析，但我不知道在哪里开始做这样的事情。我在网上找到的任何应该进行语义分析的工具“只适用于预定义的文本集合。如上所述：我需要一些可以处理自定义集合的东西，然后使用该索引来执行搜索。

有任何想法或建议吗？