数据集包含: 15000个观察/行 3000个功能/列
我可以在这些数据集上训练机器学习模型
答案 0 :(得分:0)
是的,您可以应用ML模型,但在此之前,对问题陈述的了解会与数据集中所有可用的功能名称结合在一起。如果您有大型数据集,请尝试将其转换为2的群集,否则请使用小型数据集来分析数据的含义。 这就是人口与抽样得以实际使用的原因。
您必须检查火车数据集和测试数据集的准确性是否应该相同,如果不一致,则您的模型是记忆而不是学习,这里出现了机器学习中的正则化。
答案 1 :(得分:0)
没有人可以根据您提供的信息来回答这个问题。最简单的方法是以交叉验证的形式运行健全性检查。您的模型在看不见的数据上表现良好吗?如果是这样,则可能不会过拟合。如果不是,请检查模型在训练数据上的表现是否良好。在训练数据上表现良好但在看不见的数据上表现不佳的模型是过拟合模型的定义。