关键字提取如何工作?

时间:2018-11-29 06:03:54

标签: ibm-watson watson-nlu

我用以下文本测试了IBM自然语言理解服务中的关键字提取:

Desarrollo PDA。调整PDA。 Nuevo模数PDA。调整PDA模数。没有sincroniza PDA。 PDA模错误。

我得到以下答复:

  • 具有98.31%的相关性的pda模
  • 以64.44%的相关性调整模数pda
  • 具有64.34相关性的新模pda

现在我的问题是,为什么“ modulo pda”关键字的相关性为98.31%,而不仅仅是具有较高相关性的“ PDA”?我一直在到处搜索IBM如何工作而无济于事。

1 个答案:

答案 0 :(得分:0)

用于提取和评分关键字的实际算法将是公司专有的配方,我不希望它们将其公开。但是您可以找到很多关于该主题的研究论文,但通常最终的商业产品将包含各种不同技术的组合以获得最佳结果。

您可以比较来自不同提供商(例如IBM,Google,Amazon)的不同NLU服务并比较结果。

专门针对您的查询,您尝试从单个文档中提取关键字或主题。 PDA出现在文档中的每个句子中。如果我们使用诸如TF-IDF之类的简单技术,其中每个句子都是一个文档,则PDA单词的TF-IDF = 0,因为它出现在每个句子中,并且变得无关紧要,因为它没有为总体主题或文档重要性添加信息。