我有一个csv文件,其中包含开始日期和结束日期,格式为dd/mm/yy
。
这些是阅读:
dateparse = lambda x: pnd.datetime.strptime(x, '%d/%m/%y')
df = pnd.read_csv('file.csv',sep=';',parse_dates=['StartDate','EndDate'], date_parser=dateparse)
数据框的示例如下所示:
StartDate EndDate
0 2015-07-15 2015-07-18
1 2015-06-06 2015-06-08
我希望在新数据框的列中获取这些时间间隔中列出的所有日期:
Date
0 2015-07-15
1 2015-07-16
2 2015-07-17
3 2015-07-18
4 2015-06-06
5 2015-06-07
6 2015-06-08
我使用迭代date_range(StartDate, EndDate)
,每次追加结果,但我得到一个空数组,或类似
[[2015-07-15, 2015-07-16, 2015-07-17, 2015-07-18], [ 2015-06-06, 2015-06-07 , 2015-06-08 ]]
我希望
[ 2015-07-15, 2015-07-16, 2015-07-17, 2015-07-18, 2015-06-06, 2015-06-07 , 2015-06-08 ]
怎么办?
答案 0 :(得分:3)
您可以使用itertools.chain
将范围链接在一起以创建日期列表:
from itertools import chain
new_df = pnd.DataFrame(list(chain.from_iterable(pnd.date_range(r["StartDate"],r["EndDate"])
for _,r in df.iterrows())), columns=("Date",))
输出:
Date
0 2015-07-15
1 2015-07-16
2 2015-07-17
3 2015-07-18
4 2015-06-06
5 2015-06-07
6 2015-06-08