我正在尝试在数据框中查找30天或更早的记录。我几乎可以完成所有工作,但是我需要更正“年龄”列的格式。程序中的大多数内容都是我在堆栈溢出时发现的,但是我不知道如何更改返回的增量的格式。
import pandas as pd
import datetime as dt
file_name = '/Aging_SRs.xls'
sheet = 'All'
df = pd.read_excel(io=file_name, sheet_name=sheet)
df.rename(columns={'SR Create Date': 'Create_Date', 'SR Number': 'SR'}, inplace=True)
tday = dt.date.today()
tdelta = dt.timedelta(days=30)
aged = tday - tdelta
df = df.loc[df.Create_Date <= aged, :]
# Sets the SR as the index.
df = df.set_index('SR', drop = True)
# Created the Age column.
df.insert(2, 'Age', 0)
# Calculates the days between the Create Date and Today.
df['Age'] = df['Create_Date'].subtract(tday)
上面最后一行中的计算为我提供了结果,但是看起来像-197 days +09:39:12
,我需要它只是一个正数197
。我还尝试使用python,pandas和datetime关键字进行搜索。
df.rename(columns={'Create_Date': 'SR Create Date'}, inplace=True)
writer = pd.ExcelWriter('output_test.xlsx')
df.to_excel(writer)
writer.save()
答案 0 :(得分:0)
我看不到您的示例数据,但是IIUC和您只是试图获取timedelta的天数的绝对值,这应该可以工作:
df['Age'] = abs(df['Create_Date'].subtract(tday)).dt.days)
说明:
给出一个带有timedelta列的数据框:
>>> df
delta
0 26523 days 01:57:59
1 -1601 days +01:57:59
您可以使用int
仅提取天数作为dt.days
:
>>> df['delta']dt.days
0 26523
1 -1601
Name: delta, dtype: int64
然后,您所需要做的就是将其包装在对abs
的调用中以获取该int的绝对值:
>>> abs(df.delta.dt.days)
0 26523
1 1601
Name: delta, dtype: int64
答案 1 :(得分:0)
这是我针对基本相同的问题所做的工作。
# create timestamp for today, normalize to 00:00:00
today = pd.to_datetime('today', ).normalize()
# match timezone with datetimes in df so subtraction works
today = today.tz_localize(df['posted'].dt.tz)
# create 'age' column for days old
df['age'] = (today - df['posted']).dt.days
与上面的答案几乎相同,但没有调用 abs()
。