Question

我有一系列np.int64，但由于某种原因，在不同情况下使用isinstance()会产生不同的答案。

你可以在附图中看到，如果我检查单个元素的类型，我会得到numpy.int64，因此这个特定元素的isinstance可以正常工作。

然而，当我使用apply时，会发生相反的行为，并且我会得到不同的结果。这是因为apply会以某种方式更改类型吗？

更详细地说，原始系列定义为：

sample_series = pd.Series([np.int64(1), np.int64(25), np.int64(50) ,np.int64(75)])

当我检查一个元素type(sample_series.loc[0])的类型时，我得到输出numpy.int64。

现在使用isinstance为我提供了以下（预期）答案，isinstance(sample_series.loc[0], int)，输出：False和isinstance(sample_series.loc[0], np.int64)，输出：True。

另一方面，sample_series.apply(lambda x : isinstance(x,int))给出输出：

0    True
1    True
2    True
3    True
dtype: bool

虽然sample_series.apply(lambda x : isinstance(x, np.int64))给出了输出：

0    False
1    False
2    False
3    False
dtype: bool

所以看起来结果不一致。

谢谢！

Answer 1

看来DataFrame.apply和Series.apply略有不同。例如：

sample_series = pd.Series([np.int64(1), np.int64(50), np.int64(75)])
#0     1
#1    50
#2    75
#dtype: int64

sample_series.apply(lambda x: type(x))
#0    <class 'int'>
#1    <class 'int'>
#2    <class 'int'>
#dtype: object

但是

df = pd.DataFrame({'val': sample_series})
df.dtypes
#val    int64
#dtype: object

df.apply(lambda row: type(row.val), axis=1)
#0    <class 'numpy.int64'>
#1    <class 'numpy.int64'>
#2    <class 'numpy.int64'>
#dtype: object

如果您查看Series.apply代码，看起来奇怪的行为是here

# row-wise access
if is_extension_type(self.dtype):
    mapped = self._values.map(f)
else:
    values = self.asobject
    mapped = lib.map_infer(values, f, convert=convert_dtype)

它正在拍摄你的系列，然后创建values array([1, 50, 75], dtype=object)并将其传递给pandas._libs中的另一个函数以应用你的函数f = lambda x: isinstance(x, np.int64)

另一方面，DataFrame.apply axis=1按预期工作，因为当values定义values = self.values时，values = array([ 1, 50, 75], dtype=int64) See here会这样做， {1}}

事实上，如果您要将基础pandas Series.apply代码更改为values=self.values，您将获得预期的输出。

Answer 2

将convert_dtype=False传递给apply来看似乎可以解决您的问题。链接到此参数的文档：

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.apply.html#pandas-series-apply

如上面的链接中所述，True的默认值为Try to find better dtype for elementwise function results，这意味着您传递给isinstance的lambda中的apply调用返回布尔值，因此，apply调用正在更改Series内容的数据类型。

pandas int和np.int64中的奇怪的isinstance行为

2 个答案: