我正在尝试从熊猫数据框中收集数据。在屏幕快照中,您将看到数据库构建方式的一部分。
所以现在我想对其他列进行相同的分析。对于相同的hid,我想计算休假时间。我想选择第一行“ home”并读取起始值。这样,对于相同的盖头,就不应再次覆盖它。之后,我想要最后一个“返回首页”条目的最终值,然后计算它们之间的差。我尝试实现这一点,但是大多数时候从首页读取的起始值都会被覆盖,并且差异并不相同。
这是我的惯例:
wid=1
for i in range(0,len(dataframe)):
if (i+1 >= len(dataframe)):
break
if (
dataframe['hhid'].values[i] == dataframe['hhid'].values[i+1] or
dataframe['hhid'].values[i] == dataframe['hhid'].values[i-1]
):
if (
dataframe['w01'].values[i] == 'from Hause' and
wid >= dataframe['wid'].values[i]
):
bla = dataframe['wid'].values[i]
start = dataframe['st_std'].values[i]
print('start',start)
wid = dataframe['wid'].values[i]
if (
dataframe['w04'].values[i] == 'to Hause'
):
end = dataframe['en_std'].values[i]
print('end',end)
dataframe['awaytime'].values[i]= (end-start)
if end-start < 0:
dataframe['awaytime'].values[i]= (start-end)+1
else:
continue
if(dataframe['hhid'].values[i] != dataframe['hhid'].values[i+1]):
if (i+1 >= len(dataframe)):
break
wid=dataframe['wid'].values[i+1]
return dataframe
任何想法如何正确地做到这一点?
excel格式的数据样本。不幸的是,我不允许上传完整的数据集: https://www.dropbox.com/s/af3wb7fcsqhukvz/Export_db_awaytime.xlsx?dl=0
答案 0 :(得分:0)
我想我解决了这个问题。我添加了一个计数器来保存home的第一个值。我得到的值很好。
仅供参考:
counter=0
test_counter=0
from_home=0
for i in range(0,len(dataframe)):
if (i+1 >= len(dataframe)):
break
"""Check for same hhid"""
if (
dataframe['hhid'].values[i] == dataframe['hhid'].values[i+1] or
dataframe['hhid'].values[i] == dataframe['hhid'].values[i-1]
):
"""Check for first departure"""
if (
dataframe['w01'].values[i] == 'from home' and
counter<=test_counter
):
start = dataframe['st_std'].values[i]
#print('start',start)
from_home=1
counter+=1
"""Check way home"""
if (
dataframe['w04'].values[i] == 'to home' and
from_home==1
):
end = dataframe['en_std'].values[i]
dataframe['awaytime'].values[i]= (end-start)
if end-start < 0:
dataframe['awaytime].values[i]= (start-end)+1
"""Check when another hhid is next entry"""
if(dataframe['hhid'].values[i] != dataframe['hhid'].values[i+1]):
if (i+1 >= len(dataframe)):
break
counter=0
from_home=0