信息检索系统中带有同义词的关键字搜索

时间:2018-09-12 09:09:31

标签: machine-learning nlp information-retrieval natural-language-processing

我已经开发了一个聊天机器人,可以为用户输入提供正确的答案。现在,我在如何正确读取DB / Knowledge Base或仅json文件以提取正确答案方面感到困惑。在我的用例中,我有很多关键字名称/实体以及同义词。因此,将同义词手动写入NLU培训文件中是一个坏主意。我的数据库文件首先列出了关键字,然后针对属于该实体的每个意图将答案分开。在实践中,您如何处理此类关键字搜索以及用户提供的略有不同的关键字/同义词?

我对标准方法感兴趣,将来我希望将NLP应用于我的自定义案例,例如单词emebedding。

1 个答案:

答案 0 :(得分:-1)

GloVe是一种用于获取单词语义向量的预训练模型,该模型结合了全局矩阵分解和局部上下文窗口。通过使用字典项目的哈希表,您可以在哈希表中搜索关键字以及该关键字的值。以GloVe页面为例,如果查询是以下单词之一,则可以将查询匹配为 frog

frog
frogs
toad
litoria
leptodactylidae
rana
lizard
eleutherodactylus 

如果您不希望模型匹配人类普通词汇量以外的单词,则可以在自己的语料库上训练GloVe模型。