Question

pandas function read_csv（）读取.csv文件。其文档为here

根据文件，我们知道：

dtype：列名称或列表 - ＆gt; type，default无数据类型对于数据或列。例如。 {'a'：np.float64，'b'：np.int32} （不支持engine ='python'）

和

转换器：dict，默认无转换函数的字典某些列中的值。键可以是整数或列标签

使用此功能时，我也可以打电话 pandas.read_csv('file',dtype=object)或pandas.read_csv('file',converters=object)。显然，转换器，它的名字可以说数据类型会被转换，但我想知道dtype的情况吗？

Answer 1

语义差异是dtype允许您指定如何处理值，例如，数字或字符串类型。

转换器允许您使用转换函数解析输入数据以将其转换为所需的dtype，例如，将字符串值解析为datetime或其他所需的dtype。

在这里，我们看到大熊猫试图嗅探类型：

In [2]:
df = pd.read_csv(io.StringIO(t))
t="""int,float,date,str
001,3.31,2015/01/01,005"""
df = pd.read_csv(io.StringIO(t))
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1 entries, 0 to 0
Data columns (total 4 columns):
int      1 non-null int64
float    1 non-null float64
date     1 non-null object
str      1 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 40.0+ bytes

您可以从上面看到，001和005被视为int64，但日期字符串仍为str。

如果我们说一切都是object，那么基本上所有内容都是str：

In [3]:    
df = pd.read_csv(io.StringIO(t), dtype=object).info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1 entries, 0 to 0
Data columns (total 4 columns):
int      1 non-null object
float    1 non-null object
date     1 non-null object
str      1 non-null object
dtypes: object(4)
memory usage: 40.0+ bytes

在此我们强制int列到str并告诉parse_dates使用date_parser来解析日期列：

In [6]:
pd.read_csv(io.StringIO(t), dtype={'int':'object'}, parse_dates=['date']).info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1 entries, 0 to 0
Data columns (total 4 columns):
int      1 non-null object
float    1 non-null float64
date     1 non-null datetime64[ns]
str      1 non-null int64
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 40.0+ bytes

同样，我们可以通过to_datetime函数转换日期：

In [5]:
pd.read_csv(io.StringIO(t), converters={'date':pd.to_datetime}).info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1 entries, 0 to 0
Data columns (total 4 columns):
int      1 non-null int64
float    1 non-null float64
date     1 non-null datetime64[ns]
str      1 non-null int64
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 40.0 bytes

Answer 2

我想说 converters 的主要目的是操作列的值，而不是数据类型。 @EdChum 分享的答案侧重于 dtypes 的想法。它使用 pd.to_datetime 函数。

在这篇文章 https://medium.com/analytics-vidhya/make-the-most-out-of-your-pandas-read-csv-1531c71893b5 中关于转换器 的区域中，您将看到一个示例，该示例将具有“185 磅”等值的 csv 列更改为删除文本列中的“lbs”。这更多是 read_csv converters 参数背后的想法。

.csv 是什么样子（如果图片不显示，请转至文章。）

#creating functions to clean the columns
w = lambda x: (x.replace('lbs.',''))
r = lambda x: (x.replace('"',''))
#using converters to apply the functions to the columns
fighter = pd.read_csv('raw_fighter_details.csv' , 
                      converters={'Weight':w , 'Reach':r }, 
                      header=0, 
                      usecols = [0,1,2,3])
fighter.head(15)

在 Weight 列上使用 DataFrame 后的 converters。

pandas.read_csv中dtype和转换器之间有什么区别？

2 个答案: