如何分析包含多个来源的时间序列(例如,多个气象站的天气数据时间序列)

时间:2019-05-31 05:59:53

标签: r machine-learning time-series data-analysis data-manipulation

我正在尝试建立机器学习模型,以预测整个时间段内每个邻域的VAR1。使用时间序列数据(年和月)。但是,数据包含许多邻域(这是分析的基础)。因此,每个邻居将重复3年* 12个月= 36次

我需要将此数据与其他数据集合并。所有其他数据集都具有相同数量的区域,并且具有Year(年份),但是没有Month(月份)。

我需要有关如何将这些数据集结合在一起并进行分析的帮助。我在R工作。

在加入数据集时,我将尝试将其他数据集中的行转移到列中,以便每个区域的实例更少。

下面是一些数据集的某些标题的示例(在R中):

head(df)
  Year     Month          District         Neighborhood          Gender       VAR1             
1 2017    January             1                 1                   M          2000
2 2017    January             1                 2                   M          350
3 2017    January             1                 3                   M          700
4 2017    January             1                 4                   M          400
5 2017    January             2                 5                   M          1000
6 2017    January             2                 6                   M          200

tail(df)
      Year  Month          District           Neighborhood      Gender       VAR1                
10577 2015 December            10                   69              F         200
10578 2015 December            10                   70              F         1000
10579 2015 December            10                   71              F         500
10580 2015 December            10                   72              F         350
10581 2015 December            10                   73              F         300
10582 2015 December            99                   99              F         770                 

我在两件事上需要帮助:

首先,我需要知道如何将上面的示例与其他没有月份的数据集合并。

我被困在如何进行EDA和分析该数据集的工作上,在这里将对您有所帮助。

2 个答案:

答案 0 :(得分:0)

您可以为每个源构建单独的模型,然后将它们简单地串联在一起。这是一个快速的video

答案 1 :(得分:0)

几个模型(ARIMA、HOLT 等)然后使用 Ensemble 模型。