具有分类属性的亚马逊机器学习 - 限制

时间:2017-03-09 08:07:09

标签: neural-network amazon-machine-learning

我使用回归模型来预测一组120个属性的数值。其中7个属性是分类,但最大的类别有大约90,000个唯一值。我正在训练大约100万行数据。

但是,当我查看数据源摘要中的Categorical属性时,我可以看到这些属性最多显示5000个唯一值。这是AWS Machine Learning强制执行的某种限制,它会影响我的模型的准确性,还是只是对摘要显示的限制?

AWS Categorical Attribute Summary

此外,我强调了最常见的类别结果,其中空白显示为最常见的值。 (这可能是因为我的CSV包括引号,因而是有效值)AWS ML是否忽略了分类元素的空白条目?或者我应该使用UUID /随机字符串填充缺少的分类值,以便共同的共享“空白”值不会扭曲预测。

据我所知,一些ML模型会保留一个备用神经元,以便在为预测输入新的(以前在培训中未见过的)分类值时使用。这是AWS Machine Learning的情况吗?

我是ML新手,很抱歉,如果我的问题很愚蠢,或者我的方法/假设是错误的。在询问之前,我确实扫描了AWS文档。

感谢。

1 个答案:

答案 0 :(得分:1)

使用如此多的类别值通常没有多大意义,只使用最高值,因为其他较小的类别没有太多预测能力。

这些类别与目标具有非常高的相关性,这有点可疑。但如果模型与他们合作得很好,我就不会太担心。您可以尝试在没有它们的情况下构建模型,看看它是否有任何区别,但是我不会在选择功能时太努力,更多的是添加更多潜在功能。