我试图找出在我的pandas数据中管理单位的好方法。例如,我有DataFrame
,如下所示:
length (m) width (m) thickness (cm)
0 1.2 3.4 5.6
1 7.8 9.0 1.2
2 3.4 5.6 7.8
目前,测量单位以列名编码。缺点包括:
df['width (m)']
与df['width']
如果我想从列名中删除单位,是否还有其他地方可以存储信息?
答案 0 :(得分:10)
目前没有任何好方法可以做到这一点,请参阅github问题here进行讨论。
作为一个快速黑客,可以做这样的事情,与单位保持一个单独的字典。
In [3]: units = {}
In [5]: newcols = []
...: for col in df:
...: name, unit = col.split(' ')
...: units[name] = unit
...: newcols.append(name)
In [6]: df.columns = newcols
In [7]: df
Out[7]:
length width thickness
0 1.2 3.4 5.6
1 7.8 9.0 1.2
2 3.4 5.6 7.8
In [8]: units['length']
Out[8]: '(m)'
答案 1 :(得分:1)
我也在寻找这个。这是pint和(实验性)pint_pandas今天所具有的功能:
import pandas as pd
import pint
import pint_pandas
ureg = pint.UnitRegistry()
ureg.Unit.default_format = "~P"
pint_pandas.PintType.ureg.default_format = "~P"
df = pd.DataFrame({
"length": pd.Series([1.2, 7.8, 3.4], dtype="pint[m]"),
"width": pd.Series([3.4, 9.0, 5.6], dtype="pint[m]"),
"thickness": pd.Series([5.6, 1.2, 7.8], dtype="pint[cm]"),
})
print(df.pint.dequantify())
length width thickness
unit m m cm
0 1.2 3.4 5.6
1 7.8 9.0 1.2
2 3.4 5.6 7.8
df['width'] = df['width'].pint.to("inch")
print(df.pint.dequantify())
length width thickness
unit m in cm
0 1.2 133.858268 5.6
1 7.8 354.330709 1.2
2 3.4 220.472441 7.8
答案 2 :(得分:0)
为您提供一些方法:
自己扩展pandas