我正在处理具有许多功能的庞大数据集。这些功能实际上是int类型,但是由于它们具有np.nan
值,因此pandas为其分配了float64
类型。
我通过迭代每一列将这些功能投射到float32
上。大约需要10分钟才能完成。有什么方法可以加快此操作?
从csv文件读取数据。数据中有object
和int64
列。
for col in float_cols:
df[col] = df[col].astype(np.float32)
答案 0 :(得分:1)
在dtype
中将read_csv
参数与字典一起使用:
df = pd.read_csv(file, dtype=dict.fromkeys(float_cols, np.float32))