Question

我对NLC的工作原理感到困惑。我的期望是，当要求对文本进行分类时，它应该没有任何关系，或者训练数据要从中学习，应该返回没有结果或结果且置信度得分非常低。

我已经使用一组训练数据训练了一个模型，当我尝试对训练数据之外的文本进行分类时，我得到的结果具有高置信度值（~60％）。

以下是我的培训数据示例：

foo,1,2,3,4
bar,1,2,3,4
baz,1,2,3,4

当我尝试对“这不应该存在”的文本进行分类时，我非常确信这个文本是“1”。

我的假设是否正确，因为在这种情况下我应该返回值？我是否正在训练数据以对foo，bar和baz进行错误分类？如果不是我应该从NLC服务中得到什么？

Answer 1

想象一下，你有3个水桶，你必须在其中一个投掷硬币。每个桶有33.3％的变化来获得硬币。自然语言分类器服务也是如此。它经过培训，可以将输入文本分类为预定义的类。

如果您创建一个包含3个类的分类器，并且您尝试对训练数据中没有的文本进行分类，NLC仍会将您的句子分类为您定义的三个类之一。如果您的输出为60％，则其他两个桶将获得剩余的40％。

有时你可以得到一个高分，当你的课程非常不同时，这是正常的。