处理数据框中的丢失和重复数据时间字段

时间:2015-07-16 15:36:27

标签: pandas dataframe

这是我的代码段

for file_ in allFiles: cols = ['Timestamp', 'Active_Power(in W)', 'Active_Power(in MC)', 'Apparent_Power(in VA)', 'Apparent_Power(in MC)', 'Vrms(in V)', 'Vrms(in MC)', 'Irms(in A)', 'Irms(in MC)']

df = pd.read_csv(file_,sep=',', header=None, names=cols)
print "Current file is %s" %(file_)  #Debugging statement-1
df.drop(df.columns[[2,3,4,5,6,7,8]], axis=1, inplace=True) #Drop all columns except ACTIVE POWER
print "cols %s" %(df.columns)   #Debugging statement-2
print df.head(20) # Debugging statement-3 
df0=df.drop_duplicates(subset='Timestamp', take_last=True)

print df0.head(20) # Debugging statement-4 

list_.append(df0)
frame = pd.concat(list_,axis=1)

观察到的输出:帧包含两个字段,即时间戳&源目录中所有4个CSV文件的Active_Power(以W为单位)并排排列。到目前为止一切都很好。

如何删除每个csv文件中的重复和/或缺失的某些行,导致数据帧在时间戳中未对齐?

例如,@ row6缺少时间戳值,因此" NaN"正在适当插入。但@ row10时间戳值在原始源文件中被复制两次,因此被删除导致" NaN"再次,因此时间戳序列未对齐。如何处理这个问题?

0 个答案:

没有答案