我有一个包含12年天气数据的数据集。前10年,每天记录数据。在过去两年中,它现在每周都有记录。我想在Python Pandas中使用这些数据进行分析,但我对如何规范化使用这一点感到很遗憾。
我的想法
有关于此的任何想法吗?
答案 0 :(得分:0)
首先,您需要定义所需的输出,然后推断出如何处理输入以获得所需的输出。
关于前10年的每日数据,可能是每周只保留一天的可能选项。子采样并不总是意味着丢失信息,并不总是改变最终结果。这取决于所收集数据的性质:数据变化的速度,测量误差,噪声。
变化速度:请参考Shannon,以确定是否每周一次取样而不是每天取消信息。考虑到去年的2人,有些人决定每周只抽样一次,似乎他们发现每天的数据变化不大,而且每周的样本都是足够的信息。这提供了对最终数据集进行投票的提示,该数据集将包括每12周一次的一个样本。除非他们因成本原因减少了抽样,否则在准确性和抽样成本之间做出妥协。尝试在文献中找到预期数据变化的速度。
测量误差:如果测量误差包含一个随机正或负的小ε,那么,平均花费7天来制作一周"一周"数据会更好,因为它会增加取消这种变化的机会。否则,只需每周一天进行一次子采样并抛出一周中的其他日子就足够了。我会尝试两种方法,平均和子采样,看看输出是否有显着差异。