熊猫float64到float 32,然后数据改变

时间:2018-10-22 11:42:21

标签: python pandas numpy

我有一个包含一些浮点数据的csv文件。 代码很简单

df = pd.read_csv(my_csv_vile)
print(df.iloc[:2,:4]
600663.XSHG  000877.XSHE  600523.XSHG  601311.XSHG
2016-01-04 09:31:00        49.40         8.05        22.79        21.80
2016-01-04 09:32:00        49.55         8.03        22.79        21.75

然后我将其转换为float32以节省内存使用量。

short_df = df.astype(np.float32)
print(short_df.iloc[:2,:4])
600663.XSHG  000877.XSHE  600523.XSHG  601311.XSHG
2016-01-04 09:31:00    49.400002         8.05    22.790001    21.799999
2016-01-04 09:32:00    49.549999         8.03    22.790001    21.750000

值刚刚改变! 如何保持数据不变?

(我也尝试过short_df.round(2),但打印仍然得到相同的输出)

1 个答案:

答案 0 :(得分:2)

许多十进制浮点数不能用float64或float32准确表示。审查例如The Floating-Point Guide,如果您不熟悉该问题。

熊猫defaults可以显示精度为6的浮点,默认输出中会删除尾随的0。

float64可以准确地表示精度高达6(甚至更高)的示例数字,而float32不能:

>>> print("%.6f" % np.float64(49.40))
49.400000

>>> print("%.6f" % np.float32(49.40))
49.400002

如果在打印df时对第二位数以外的精度不感兴趣,则可以设置显示精度:

pd.set_option('precision', 2)

然后,即使使用float32s,也会得到相同的输出:

 >>> df.astype(np.float32)
                     600663.XSHG  000877.XSHE  600523.XSHG  601311.XSHG
2016-01-04 09:31:00        49.40         8.05        22.79        21.80
           09:32:00        49.55         8.03        22.79        21.75

如果要在写回csv文件时将所有内容都放在第二位之后,请使用float_format

df.to_csv(file_name, float_format="%.2f")