通过pandas.read_csv
阅读日期时,如果parse_dates
参数中指定的列不可用,则pandas使用值1900-01-01
表示空CSV单元格:
33031 2013-01-25 16:18:59.937
33032 1900-01-01 00:00:00.000
33033 1900-01-01 00:00:00.000
33034 2013-08-06 12:45:02.560
33035 1900-01-01 00:00:00.000
33036 1900-01-01 00:00:00.000
如何防止大熊猫这样做?我想将默认值设置为NaN
或None
,但我已经传入了na_filter=False
,因为我不希望某些其他列使用NaN。
代码:
df = pd.read_csv(INFOS_FILENAME, dtype={
'authors': object,
'created': object,
'description': object,
'id': object,
'is_prerelease': bool,
'last_updated': object,
'listed': bool,
'summary': object,
'tags': object,
'total_downloads': np.int32,
'verified': bool,
'version': object
}, na_filter=False,
parse_dates=['created', 'last_updated'])