这是我的代码段
for file_ in allFiles: cols = ['Timestamp', 'Active_Power(in W)', 'Active_Power(in MC)', 'Apparent_Power(in VA)', 'Apparent_Power(in MC)', 'Vrms(in V)', 'Vrms(in MC)', 'Irms(in A)', 'Irms(in MC)']
df = pd.read_csv(file_,sep=',', header=None, names=cols)
print "Current file is %s" %(file_) #Debugging statement-1
df.drop(df.columns[[2,3,4,5,6,7,8]], axis=1, inplace=True) #Drop all columns except ACTIVE POWER
print "cols %s" %(df.columns) #Debugging statement-2
print df.head(20) # Debugging statement-3
df0=df.drop_duplicates(subset='Timestamp', take_last=True)
print df0.head(20) # Debugging statement-4
list_.append(df0)
frame = pd.concat(list_,axis=1)
观察到的输出:帧包含两个字段,即时间戳&源目录中所有4个CSV文件的Active_Power(以W为单位)并排排列。到目前为止一切都很好。
如何删除每个csv文件中的重复和/或缺失的某些行,导致数据帧在时间戳中未对齐?
例如,@ row6缺少时间戳值,因此" NaN"正在适当插入。但@ row10时间戳值在原始源文件中被复制两次,因此被删除导致" NaN"再次,因此时间戳序列未对齐。如何处理这个问题?