我拥有这个1990年至2017年的农业原料数据集,为了进行学习,我试图做出一些价格预测:
以下是所有列:
现在我想将数据集分为训练集和测试集,因此我可以将一些机器学习模型应用于预测,但是考虑到每列都有它们的价格彼此独立。如果要进行价格预测,应该如何分割此数据集?
答案 0 :(得分:0)
正如我从您的数据中看到的那样,有几个可预测的原材料价格。考虑到这些原材料价格彼此独立,可以创建一个仅包含一个因变量(例如Copra_Price)和其余自变量的数据集,并从数据中删除其他与价格相关的变量。拥有此数据集后,您可以轻松地将其拆分为训练并使用Copra_Price进行测试。可以对每个价格变量重复此操作。
还有一个考虑因素是,如果其中一个价格变量都没有异常,那么您可以使用其中任何一个来拆分数据,因为其中一个的随机选择很可能是跨价格的随机选择。组。