Question

这是我的代码段

for file_ in allFiles: cols = ['Timestamp', 'Active_Power(in W)', 'Active_Power(in MC)', 'Apparent_Power(in VA)', 'Apparent_Power(in MC)', 'Vrms(in V)', 'Vrms(in MC)', 'Irms(in A)', 'Irms(in MC)']

df = pd.read_csv(file_,sep=',', header=None, names=cols)
print "Current file is %s" %(file_)  #Debugging statement-1
df.drop(df.columns[[2,3,4,5,6,7,8]], axis=1, inplace=True) #Drop all columns except ACTIVE POWER
print "cols %s" %(df.columns)   #Debugging statement-2
print df.head(20) # Debugging statement-3 
df0=df.drop_duplicates(subset='Timestamp', take_last=True)

print df0.head(20) # Debugging statement-4 

list_.append(df0)
frame = pd.concat(list_,axis=1)

观察到的输出：帧包含两个字段，即时间戳＆amp;源目录中所有4个CSV文件的Active_Power（以W为单位）并排排列。到目前为止一切都很好。

如何删除每个csv文件中的重复和/或缺失的某些行，导致数据帧在时间戳中未对齐？

例如，@ row6缺少时间戳值，因此＆＃34; NaN＆＃34;正在适当插入。但@ row10时间戳值在原始源文件中被复制两次，因此被删除导致＆＃34; NaN＆＃34;再次，因此时间戳序列未对齐。如何处理这个问题？

处理数据框中的丢失和重复数据时间字段

0 个答案: