我们有一个系统允许用户以自由文本的形式回答问题,我们想检查他们的答案是否包含我们预定义的任何主题。这些主题将在提交答案之前定义。
我们尝试使用类似于垃圾邮件检测的方法,但这仅适用于确定某些内容是真/假,不正确/正确。我们需要响应来说明一段文本包含哪些预定义主题。有算法可以解决这个问题吗?
答案 0 :(得分:1)
您还可以尝试显式语义分析(ESA)[1][2]
。给定一组代表概念的文档(在您的情况下是您的主题),您可以训练模型并将任何新句子作为输入,您可以获得最接近的概念的排序列表" evoked"通过那句话。当然,这假设您有一个文档,其中包含一些描述您想要识别的概念的文本(这就是为什么最常见的事情是使用维基百科页面作为概念),但如果是这种情况,您可以给它一试。
[1] https://en.wikipedia.org/wiki/Explicit_semantic_analysis
[2] http://www.cs.technion.ac.il/~gabr/papers/ijcai-2007-sim.pdf