我正在尝试建立机器学习模型,以预测整个时间段内每个邻域的VAR1。使用时间序列数据(年和月)。但是,数据包含许多邻域(这是分析的基础)。因此,每个邻居将重复3年* 12个月= 36次。
我需要将此数据与其他数据集合并。所有其他数据集都具有相同数量的区域,并且具有Year(年份),但是没有Month(月份)。
我需要有关如何将这些数据集结合在一起并进行分析的帮助。我在R工作。
在加入数据集时,我将尝试将其他数据集中的行转移到列中,以便每个区域的实例更少。
下面是一些数据集的某些标题的示例(在R中):
head(df)
Year Month District Neighborhood Gender VAR1
1 2017 January 1 1 M 2000
2 2017 January 1 2 M 350
3 2017 January 1 3 M 700
4 2017 January 1 4 M 400
5 2017 January 2 5 M 1000
6 2017 January 2 6 M 200
tail(df)
Year Month District Neighborhood Gender VAR1
10577 2015 December 10 69 F 200
10578 2015 December 10 70 F 1000
10579 2015 December 10 71 F 500
10580 2015 December 10 72 F 350
10581 2015 December 10 73 F 300
10582 2015 December 99 99 F 770
我在两件事上需要帮助:
首先,我需要知道如何将上面的示例与其他没有月份的数据集合并。
我被困在如何进行EDA和分析该数据集的工作上,在这里将对您有所帮助。
答案 0 :(得分:0)
您可以为每个源构建单独的模型,然后将它们简单地串联在一起。这是一个快速的video。
答案 1 :(得分:0)
几个模型(ARIMA、HOLT 等)然后使用 Ensemble 模型。