自然语言分类器返回未经训练的项目

时间:2017-04-11 16:03:17

标签: ibm-watson nl-classifier

我对NLC的工作原理感到困惑。我的期望是,当要求对文本进行分类时,它应该没有任何关系,或者训练数据要从中学习,应该返回没有结果或结果且置信度得分非常低。

我已经使用一组训练数据训练了一个模型,当我尝试对训练数据之外的文本进行分类时,我得到的结果具有高置信度值(~60%)。

以下是我的培训数据示例:

foo,1,2,3,4
bar,1,2,3,4
baz,1,2,3,4

当我尝试对“这不应该存在”的文本进行分类时,我非常确信这个文本是“1”。

我的假设是否正确,因为在这种情况下我应该返回值?我是否正在训练数据以对foo,bar和baz进行错误分类?如果不是我应该从NLC服务中得到什么?

1 个答案:

答案 0 :(得分:0)

想象一下,你有3个水桶,你必须在其中一个投掷硬币。每个桶有33.3%的变化来获得硬币。自然语言分类器服务也是如此。它经过培训,可以将输入文本分类为预定义的类。

如果您创建一个包含3个类的分类器,并且您尝试对训练数据中没有的文本进行分类,NLC仍会将您的句子分类为您定义的三个类之一。如果您的输出为60%,则其他两个桶将获得剩余的40%。

有时你可以得到一个高分,当你的课程非常不同时,这是正常的。