我有一个数据,其中每个样本都有由x和大约9000个其他特征组成的特征向量以及相应的y(目标值)。其中x和y都是连续值(0到20之间)。 x噪声数据,但我们无法识别噪声源。目标是从x和其他功能预测y(功能不嘈杂)。样本数量约为900,000。我可以在这个问题中使用什么样的机器学习方法。也是神经网络或深度学习中的着名网络。
答案 0 :(得分:1)
这听起来像是一个标准的回归问题,虽然你的预测相关性很糟糕(技术术语:-))与 x 的噪音成正比。查看所有用于预测房价的教育示例(通常用于说明梯度下降)。你有9000个功能而不是3个或4个,但这只是训练时间的问题。
您可能还会考虑一些因素分析",以便您可以消除对 y (相关系数接近0.0)的贡献不足的功能。这被称为"降维&#34 ;;寻找PCA(主成分分析)。