如果我创建一个DataFrame,其中一列是对象而另一列是整数,将该DataFrame放入字典然后使用该字典创建一个Panel,则整数数据类型消失:
import pandas as pd
import datetime as dt
a=['a' for i in range(1000)]
b=[i for i in range(1000)]
c = {'c':a[:], 'b':b[:]}
df = pd.DataFrame(c)
print df
d = dict()
d['x'] = df
p = pd.Panel(d)
print p['x']
输出:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 999
Data columns (total 2 columns):
b 1000 non-null values
c 1000 non-null values
dtypes: int64(1), object(1)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 999
Data columns (total 2 columns):
b 1000 non-null values
c 1000 non-null values
dtypes: object(2)
从包含DataFrame的字典创建Panel时,有没有办法保留数据类型?
答案 0 :(得分:2)
答案是除非你改变方向,否则无法做到这一点。
解释问题的错误报告在这里: https://github.com/pydata/pandas/issues/359
我引用下面的相关部分:
在下面的示例中,“a”是混合类型的数据帧。一旦纳入 Panel,所有列都成为对象类型:
[..]
Panel中的项目只能是异构的。我刚刚添加了一个东方 Panel选项,您可以这样做:
In [4]: panel = Panel.from_dict({'1':a,'2':b}, orient='minor')
In [5]: panel
Out[5]:
<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 30 (major) x 2 (minor)
Items: a to c
Major axis: 0 to 29
Minor axis: 1 to 2
In [6]: panel['a'].values.dtype
Out[6]: dtype('float64')
In [7]: panel['b'].values.dtype
Out[7]: dtype('object')
In [8]: panel['c'].values.dtype
Out[8]: dtype('float64')
答案 1 :(得分:0)
它们需要位于不同的框架中以避免组合类型。这是一种方式
In [52]: df = pd.DataFrame(c)
In [53]: df
Out[53]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 999
Data columns (total 2 columns):
b 1000 non-null values
c 1000 non-null values
dtypes: int64(1), object(1)
In [54]: df['x'] = 'x'
In [55]: df['y'] = range(len(df))
In [56]: p = df.set_index(['x','y']).to_panel()
In [10]: p['b']
Out[10]:
<class 'pandas.core.frame.DataFrame'>
Index: 1 entries, x to x
Columns: 1000 entries, 0 to 999
dtypes: int64(1000)
In [11]: p['c']
Out[11]:
<class 'pandas.core.frame.DataFrame'>
Index: 1 entries, x to x
Columns: 1000 entries, 0 to 999
dtypes: object(1000)