我正在将csv文件加载到Pandas DataFrame中。对于每一列,如何使用dtype
参数指定它包含的数据类型?
np.bool_
和pd.tslib.Timestamp
。代码:
import pandas as pd
import numpy as np
df = pd.read_csv(<file-name>, dtype={'A': np.int64, 'B': np.float64})
答案 0 :(得分:11)
read_csv有很多选项可以处理你提到的所有情况。您可能想尝试dtype = {'A':datetime.datetime},但通常您不需要dtypes,因为pandas可以推断出类型。
对于日期,您需要指定parse_date选项:
parse_dates : boolean, list of ints or names, list of lists, or dict
keep_date_col : boolean, default False
date_parser : function
通常,为了转换布尔值,您需要指定:
true_values : list Values to consider as True
false_values : list Values to consider as False
将列表中的任何值转换为布尔值true / false。对于您可能需要的更一般转换
转换器:dict。用于转换某些列中的值的函数的可选字典。键可以是整数或列标签
虽然密集,但请点击此处查看完整列表:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html