数据周期 - 如何规范化?

时间:2017-10-20 01:26:32

标签: python pandas periodicity

我有一个包含12年天气数据的数据集。前10年,每天记录数据。在过去两年中,它现在每周都有记录。我想在Python Pandas中使用这些数据进行分析,但我对如何规范化使用这一点感到很遗憾。

我的想法

  1. 使用平均值将前10年的数据转换为每周数据。可能会工作,但翻译中会丢失很多数据。
  2. 每周数据无法转换为每日数据。
  3. 忽略每日数据 - 这是一个巨大的损失
  4. 忽略每周数据 - 我丢失了更多最新数据。
  5. 有关于此的任何想法吗?

1 个答案:

答案 0 :(得分:0)

首先,您需要定义所需的输出,然后推断出如何处理输入以获得所需的输出。

关于前10年的每日数据,可能是每周只保留一天的可能选项。子采样并不总是意味着丢失信息,并不总是改变最终结果。这取决于所收集数据的性质:数据变化的速度,测量误差,噪声。

变化速度:请参考Shannon,以确定是否每周一次取样而不是每天取消信息。考虑到去年的2人,有些人决定每周只抽样一次,似乎他们发现每天的数据变化不大,而且每周的样本都是足够的信息。这提供了对最终数据集进行投票的提示,该数据集将包括每12周一次的一个样本。除非他们因成本原因减少了抽样,否则在准确性和抽样成本之间做出妥协。尝试在文献中找到预期数据变化的速度。

测量误差:如果测量误差包含一个随机正或负的小ε,那么,平均花费7天来制作一周"一周"数据会更好,因为它会增加取消这种变化的机会。否则,只需每周一天进行一次子采样并抛出一周中的其他日子就足够了。我会尝试两种方法,平均和子采样,看看输出是否有显着差异。