我有一系列np.int64
,但由于某种原因,在不同情况下使用isinstance()
会产生不同的答案。
你可以在附图中看到,如果我检查单个元素的类型,我会得到numpy.int64,因此这个特定元素的isinstance可以正常工作。
然而,当我使用apply时,会发生相反的行为,并且我会得到不同的结果。这是因为apply会以某种方式更改类型吗?
更详细地说,原始系列定义为:
sample_series = pd.Series([np.int64(1), np.int64(25), np.int64(50) ,np.int64(75)])
当我检查一个元素type(sample_series.loc[0])
的类型时,我得到输出numpy.int64
。
现在使用isinstance为我提供了以下(预期)答案,isinstance(sample_series.loc[0], int)
,输出:False
和isinstance(sample_series.loc[0], np.int64)
,输出:True
。
另一方面,sample_series.apply(lambda x : isinstance(x,int))
给出输出:
0 True
1 True
2 True
3 True
dtype: bool
虽然sample_series.apply(lambda x : isinstance(x, np.int64))
给出了输出:
0 False
1 False
2 False
3 False
dtype: bool
所以看起来结果不一致。
谢谢!
答案 0 :(得分:4)
看来DataFrame.apply
和Series.apply
略有不同。例如:
sample_series = pd.Series([np.int64(1), np.int64(50), np.int64(75)])
#0 1
#1 50
#2 75
#dtype: int64
sample_series.apply(lambda x: type(x))
#0 <class 'int'>
#1 <class 'int'>
#2 <class 'int'>
#dtype: object
但是
df = pd.DataFrame({'val': sample_series})
df.dtypes
#val int64
#dtype: object
df.apply(lambda row: type(row.val), axis=1)
#0 <class 'numpy.int64'>
#1 <class 'numpy.int64'>
#2 <class 'numpy.int64'>
#dtype: object
如果您查看Series.apply代码,看起来奇怪的行为是here
# row-wise access
if is_extension_type(self.dtype):
mapped = self._values.map(f)
else:
values = self.asobject
mapped = lib.map_infer(values, f, convert=convert_dtype)
它正在拍摄你的系列,然后创建values
array([1, 50, 75], dtype=object)
并将其传递给pandas._libs
中的另一个函数以应用你的函数f = lambda x: isinstance(x, np.int64)
另一方面,DataFrame.apply
axis=1
按预期工作,因为当values
定义values = self.values
时,values = array([ 1, 50, 75], dtype=int64)
See here会这样做, {1}}
事实上,如果您要将基础pandas Series.apply代码更改为values=self.values
,您将获得预期的输出。
答案 1 :(得分:-3)
将convert_dtype=False
传递给apply
来看似乎可以解决您的问题。链接到此参数的文档:
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.apply.html#pandas-series-apply
如上面的链接中所述,True
的默认值为Try to find better dtype for elementwise function results
,这意味着您传递给isinstance
的lambda中的apply
调用返回布尔值,因此,apply
调用正在更改Series
内容的数据类型。