Question

我正在尝试根据每小时温度值计算学位时数。我正在使用的数据有一些缺失的日子，我试图插入这些数据。以下是数据的一部分;

2012-06-27 19:00:00 24
2012-06-27 20:00:00 23
2012-06-27 21:00:00 23
2012-06-27 22:00:00 16
2012-06-27 23:00:00 15
2012-06-29 00:00:00 15
2012-06-29 01:00:00 16
2012-06-29 02:00:00 16
2012-06-29 03:00:00 16
2012-06-29 04:00:00 17
2012-06-29 05:00:00 17
2012-06-29 06:00:00 18
....
2014-12-14 20:00:00 1
2014-12-14 21:00:00 0
2014-12-14 22:00:00 -1
2014-12-14 23:00:00 8

完整的代码是;

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
filename = 'Temperature12.xls'
df_temp = pd.read_excel(filename)
df_temp = df_temp.set_index('datetime')
ts_temp = df_temp['temp']
def inter_lin_nan(ts_temp, rule):
    ts_temp = ts_temp.resample(rule)
    mask = np.isnan(ts_temp)
    # interpolling missing values
    ts_temp[mask] = np.interp(np.flatnonzero(mask), np.flatnonzero(~mask),ts_temp[~mask])
    return(ts_temp)
ts_temp = inter_lin_nan(ts_temp,'1H')
print ts_temp['2014-06-28':'2014-06-29']
def HDH (Tcurr,Tref=15.0):
    if Tref >= Tcurr:
        return ((Tref-Tcurr)/24)
    else:
        return (0)
df_temp['H-Degreehours'] = df_temp.apply(lambda row: HDH(row['temp']),axis=1)
df_temp['CDD-CUMSUM'] = df_temp['C-Degreehours'].cumsum()
df_temp['HDD-CUMSUM'] = df_temp['H-Degreehours'].cumsum()
df_temp1=df_temp['H-Degreehours'].resample('H', how=sum)
print df_temp1

现在我有两个问题;在使用inter_lin_nan函数时，它会插入数据，但它也会更改第二天的数据，而下一个数据与excel文件中的数据完全不同。这是常见还是我错过了什么？第二个问题：在代码结束时，我试图添加每小时度数值，这就是为什么我创建了另一个数据框，但是当我打印该数据框时，它仍然具有原始数据文件中的NaN编号。你能告诉我为什么会这样吗？我可能会遗漏一些非常明显的东西，因为我是Python新手。

Answer 1

当pandas拥有自己的版本时，请不要使用numpy。

df = pd.read_csv(filepath)
df  =df.asfreq('1d') #get a timeseries with index timestamps each day.
df['somelabel'] = df['somelabel'].interpolate(method='linear') # interpolate nan values

用作频率为时间序列添加所需的时间戳频率，并使用interpolate（）仅插入nan值。

http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.Series.interpolate.html

http://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.DataFrame.asfreq.html

使用Pandas和numpy

1 个答案: