在pandas dataframe列中检测可变长度模式

时间:2015-08-31 14:10:38

标签: python excel pandas iteration

时间序列索引数据帧的最后2列标识开始('A'或'AA'或'AAA'),结束('F'或'FF'或'FFF')和持续时间(行数之间的行数)物理过程的开始和结束,它们看起来像这样:

enter image description here

和A-F序列或它们之间的n个序列具有可变长度。

如何识别这些模式,并为每个模式计算相应行的其他列的平均值?

我非常糟糕地尝试做的事情如下:

import pandas as pd
import xlrd


##### EXCEL LOAD
filepath= 'H:\\CCGT GE startup.xlsx'

df = pd.read_excel(filepath,sheet_name='Sheet1',header=0,skiprows=0,parse_cols='A:CO',index_col=0)
df = df.sort_index() # set increasing time index, source data is time decreasing

gas=[]

for i,row in df.iterrows():
    if df['FLAG STARTUP TG1'] is not 'n':
        while 'F' not in df['FLAG STARTUP TG1']:
          gas.append(df['PORTATA GREZZA TG1  -  m3/h'])
          gas.append(i)

但是脚本卡在第一个if上(与'n'条件不匹配并且保持追加相同的行,我配对)。另外,我的方法在排除仍然属于同一过程的最后一个'F'行时也是错误的,应该被认为是它的一部分!

P.S。前1000行df在这里http://www.filedropper.com/ccgtgestartup1000

p.p.s。除了没有工作,我的方法也是错误的排除仍然属于同一过程的最后一个'F'行,应该被视为它的一部分!

p.p.p.s。 2列指的是2个不同的进程/机器并且是不相关的(差不多,后面会更多),我想对两者进行相同的分析(它们将引用不同列的平均值)。第一个“A”字符串标记进程的开始并重复,直到最后一个标记为“F”字符串的时间戳。在原始文件中,时间戳正在下降,这就是我使用sort_index()方法的原因。字符串长度取决于其他列值,但明显的FLAG列相关性仅在3个字符串'AAA'和'FFF'中,因为只有当2个进程以+ -1时间戳开始时才会出现这种情况。

1 个答案:

答案 0 :(得分:0)

这就是我设法获得所需结果的方式(注意我之后决定只对单个字符' - ' F'序列感兴趣)

import pandas as pd
import numpy as np

##### EXCEL LOAD
filepath= 'H:\\CCGT GE startup.xlsx'

df = pd.read_excel(filepath,sheet_name='Sheet1',header=0,skiprows=0,parse_cols='A:CO',index_col=0)
df = df.sort_index() # set increasing time index, source data is time decreasing

tg1 = pd.DataFrame(index=df.index.copy(),columns=['counter','flag','gas','p','raw_p','tv_p','lhv','fs'])
k = 0 
for i,row in df.iterrows():
        if 'A' == str(row['FLAG STARTUP TG1']):
          tg1.ix[i,'flag']=row['FLAG STARTUP TG1']
          tg1.ix[i,'gas']=row['Portata gas naturale']
          tg1.ix[i,'counter']=k
          tg1.ix[i,'fs']=row['1FIRED START COUNT  -  N°']
          tg1.ix[i,'p']=row['POTENZA ATTIVA  MONTANTE 1 SU 400 KV  -  MW']
          tg1.ix[i,'raw_p']=row['POTENZA ATTIVA  MONTANTE 1 SU 15 KV  -  MW']
          tg1.ix[i,'tv_p']=row['POTENZA ATTIVA  MONTANTE TV  -  MW']
          tg1.ix[i,'lhv']=row['LHV -  MJ/Sm3']

        elif 'F' == str(row['FLAG STARTUP TG1']):
          tg1.ix[i,'flag']=row['FLAG STARTUP TG1']
          tg1.ix[i,'gas']=row['Portata gas naturale']
          tg1.ix[i,'counter']=k
          tg1.ix[i,'fs']=row['1FIRED START COUNT  -  N°']
          tg1.ix[i,'p']=row['POTENZA ATTIVA  MONTANTE 1 SU 400 KV  -  MW']
          tg1.ix[i,'raw_p']=row['POTENZA ATTIVA  MONTANTE 1 SU 15 KV  -  MW']
          tg1.ix[i,'tv_p']=row['POTENZA ATTIVA  MONTANTE TV  -  MW']
          tg1.ix[i,'lhv']=row['LHV -  MJ/Sm3']
          k+=1 

tg1 = tg1.dropna(axis=0)
tg1 = tg1[tg1['gas'] != 0] #data where gas flow measurement is missing is dropped
tg1 = tg1.convert_objects(convert_numeric=True)

#timestamp count for each startup for duration calculation
counts = pd.DataFrame(tg1['counter'].value_counts(),columns=['duration'])
counts['start']=counts.index
counts = counts.set_index(np.arange(len(tg1['counter'].value_counts())))

tg1 = tg1.merge(counts,how='inner',left_on='counter',right_on='start')
 # filter out non pertinent startups (too long or too short)

tg1 = tg1[tg1['duration'].isin([6,7])]

#calculate thermal input per start (process)
table = tg1.groupby(['counter']).mean()
table['t_in']=table.apply((lambda row: row['gas']*row['duration']*0.25*row['lhv']/3600),axis=1)

在迭代中进行计算的任何改进和建议,并避免所有"准备工作"欢迎之后。