pandas int和np.int64中的奇怪的isinstance行为

时间:2018-04-17 16:06:05

标签: python pandas types

我有一系列np.int64,但由于某种原因,在不同情况下使用isinstance()会产生不同的答案。

你可以在附图中看到,如果我检查单个元素的类型,我会得到numpy.int64,因此这个特定元素的isinstance可以正常工作。

然而,当我使用apply时,会发生相反的行为,并且我会得到不同的结果。这是因为apply会以某种方式更改类型吗?

更详细地说,原始系列定义为:

sample_series = pd.Series([np.int64(1), np.int64(25), np.int64(50) ,np.int64(75)])

当我检查一个元素type(sample_series.loc[0])的类型时,我得到输出numpy.int64

现在使用isinstance为我提供了以下(预期)答案,isinstance(sample_series.loc[0], int),输出:Falseisinstance(sample_series.loc[0], np.int64),输出:True

另一方面,sample_series.apply(lambda x : isinstance(x,int))给出输出:

0    True
1    True
2    True
3    True
dtype: bool

虽然sample_series.apply(lambda x : isinstance(x, np.int64))给出了输出:

0    False
1    False
2    False
3    False
dtype: bool

所以看起来结果不一致。

谢谢!

2 个答案:

答案 0 :(得分:4)

看来DataFrame.applySeries.apply略有不同。例如:

sample_series = pd.Series([np.int64(1), np.int64(50), np.int64(75)])
#0     1
#1    50
#2    75
#dtype: int64

sample_series.apply(lambda x: type(x))
#0    <class 'int'>
#1    <class 'int'>
#2    <class 'int'>
#dtype: object

但是

df = pd.DataFrame({'val': sample_series})
df.dtypes
#val    int64
#dtype: object

df.apply(lambda row: type(row.val), axis=1)
#0    <class 'numpy.int64'>
#1    <class 'numpy.int64'>
#2    <class 'numpy.int64'>
#dtype: object

如果您查看Series.apply代码,看起来奇怪的行为是here

# row-wise access
if is_extension_type(self.dtype):
    mapped = self._values.map(f)
else:
    values = self.asobject
    mapped = lib.map_infer(values, f, convert=convert_dtype)

它正在拍摄你的系列,然后创建values array([1, 50, 75], dtype=object)并将其传递给pandas._libs中的另一个函数以应用你的函数f = lambda x: isinstance(x, np.int64)

另一方面,DataFrame.apply axis=1按预期工作,因为当values定义values = self.values时,values = array([ 1, 50, 75], dtype=int64) See here会这样做, {1}}

事实上,如果您要将基础pandas Series.apply代码更改为values=self.values,您将获得预期的输出。

答案 1 :(得分:-3)

convert_dtype=False传递给apply来看似乎可以解决您的问题。链接到此参数的文档:

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.apply.html#pandas-series-apply

如上面的链接中所述,True的默认值为Try to find better dtype for elementwise function results,这意味着您传递给isinstance的lambda中的apply调用返回布尔值,因此,apply调用正在更改Series内容的数据类型。