您采用什么方法来解决具有不同参数,列和长度/宽度的多个数据集的机器学习问题?其中只有一个具有因变量。其余文件包含支持数据。
答案 0 :(得分:0)
您的查询过于笼统,在某种程度上也无关紧要。建立ML模型时,围绕列的长度和宽度的关注是没有道理的。鉴于只有一个数据集具有因变量的事实,将需要基于数据集之间通用的键来合并数据集。通常,建模之前遵循的过程是:
第0步:确定因变量并决定进行回归还是分类(假设您正在预测变量值)
通过处理重复项,拼写错误来清理提供的数据
浏览分类变量以处理任何差异。
合并数据集并创建一个具有所有自变量和因变量的单个数据集,必须对其进行预测。
进行探索性数据分析,以了解因变量与其他自变量的行为。
创建模型并基于VIF(方差膨胀因子)和p值完善模型。
迭代并不断减少变量,直到获得具有所有 重要变量,R ^ 2值稳定。完成模型。
将训练后的模型应用于测试数据集,并针对测试数据集中的变量查看预测值。
高级别执行这些步骤将有助于您构建模型。