我有一个巨大的文本文件,看起来像:
19990613,1\n19921209,1\n19940414,1\n19900506,1\n19910521,1\n19881124,0\n19760730,1\n19711206,1\n19890303,1\n19780127,0\n19860207
所需的数据框:
date gender
1999-06-13 1
1992-12-09 1
以此类推。
我尝试用python读取行,但是它给了我IOPub数据速率。
如果我无法将其直接转换为df,可以逐行将其读入列表,然后再将其读入df。
答案 0 :(得分:2)
对于我来说,使用lineterminator
,names
参数:
df = pd.read_csv('text.txt', lineterminator='\\', names=['date','gender'])
然后删除n
并解析为日期时间:
df['date'] = pd.to_datetime(df['date'].str.lstrip('n'))
print (df)
date gender
0 1999-06-13 1
1 1992-12-09 1
2 1994-04-14 1
3 1990-05-06 1
4 1991-05-21 1
5 1988-11-24 0
6 1976-07-30 1
7 1971-12-06 1
8 1989-03-03 1
9 1978-01-27 0
10 1986-02-07 0