熊猫-平行化类型函数

时间:2019-08-01 10:34:59

标签: python multithreading pandas numpy parallel-processing

我正在处理具有许多功能的庞大数据集。这些功能实际上是int类型,但是由于它们具有np.nan值,因此pandas为其分配了float64类型。

我通过迭代每一列将这些功能投射到float32上。大约需要10分钟才能完成。有什么方法可以加快此操作?

从csv文件读取数据。数据中有objectint64列。

for col in float_cols:
    df[col] = df[col].astype(np.float32)

1 个答案:

答案 0 :(得分:1)

dtype中将read_csv参数与字典一起使用:

df = pd.read_csv(file, dtype=dict.fromkeys(float_cols, np.float32))