Question

我正在使用Pandas中的功耗数据集，其中包含邮政编码作为列，但此列的数据类型是原始CSV文件中的整数。我想将此列更改为字符串/对象数据类型，这是我到目前为止所做的：

df = pd.read_csv('...kWh_consumption_by_ZIP.csv')
df.head()

结果数据框头如下所示：

如上所述，当我检查df.dtypes时，我看到ZIP被列为 int64 数据类型，因此我运行以下代码来覆盖现有系列并将其更改为 object 数据类型：

df['ZIP'] = df.ZIP.astype(object)

当我检查df.ZIP系列时，一切看起来都很好（至少，它看起来很好看）：

但是当我使用len函数检查系列中每一行的长度时：

df.ZIP.str.len()

...结果系列只返回每行的NaN（见下面的截图）。

有谁知道为什么会发生这种情况？在此先感谢您的帮助。

Answer 1

TL; DR

你有一个整数列，并且对象的转换并没有解决你的问题。相反，强制转换为str并且你应该是好的。

df.ZIP.astype(str).str.len()

出于某种原因，pandas支持str列上的object访问者。因为object列可以包含任何对象，并且pandas不做任何假设。如果对象是字符串或任何有效容器，则返回有效结果。否则，NaN。

以下是一个例子：

x = [{'a': 1}, 'abcde', None, 123, 45, [1, 2, 3, 4]]
y = pd.Series(x)

y

0        {'a': 1}
1           abcde
2            None
3             123
4              45
5    [1, 2, 3, 4]
dtype: object

y.str.len()
Out[741]: 
0    1.0
1    5.0
2    NaN
3    NaN
4    NaN
5    4.0
dtype: float64

对比：

y = pd.Series([1, 2, 3, 4, 5])
y

0    1
1    2
2    3
3    4
4    5
dtype: int64

y.dtype
dtype('int64')

y.str.len()
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-744-acc1c109a4a4> in <module>()
----> 1 y.str.len()

y.astype(object).str.len()

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
dtype: float64

为什么pandas字符串系列为len（）函数返回NaN？

1 个答案:

TL; DR