预测值不在数据集中

时间:2018-12-05 14:41:30

标签: machine-learning classification ml.net

鉴于我有训练和测试数据,可能缺少逻辑序号。可以推断出不存在的值吗?

例如: 培训/测试数据的标签值分别为1,2,3,4,5 ... 7,8,9,10。

即使在训练或测试数据中没有这种情况出现的情况下,是否有可能基于数据模型预测6的结果?

我是机器学习的新手,并且已经阅读了有监督/无监督学习。很难找到一个明确的答案,因为要为我不熟悉的领域提供正确的术语是很困难的。

最好在数据集中创建一个不包含标签值的任意行吗?

使用ML.net。

很抱歉,这是一个简单的问题。

谢谢

3 个答案:

答案 0 :(得分:0)

您是关于确定性还是概率性方法的问题?我不知道您为什么要使用机器学习,但尝试阅读Markov Chain:

https://en.wikipedia.org/wiki/Markov_chain

答案 1 :(得分:0)

分类问题中,“标签”是“真实类别”的索引。如果训练数据集中没有示例属于“ 6”类,则学习的模型将永远不会预测6类:被教导永远不要这样做。

回归问题中,“标签”是“预测的数量”(实数)。在这种情况下,模型预测训练时未看到的值是很正常的:该模型可以预测6、5.7或6.1等。

没有更多细节,我无法确定您是要解决分类问题还是回归问题。

答案 2 :(得分:0)

我解决(或实际上缓解了)缺少价值的方法是执行以下操作。对于每个需要顺序的输入数据类型-没有间隙,我仅在所有条目中使用数据集中没有不间断序列的数据/行。

给出以下内容:0,1,2,3,4,5,6,7,9

我只使用符合所有条目中最大可用序列的数据。 0-7。这可能会导致训练模型丢失一些数据,但是由于数据相当一致,因此几乎没有遗漏。