应用错误收集

我正在添加第三列，以便使用分区（以及append分段）重新保存文件，这有助于groupby的帮助 df['ID4']=df.ID1.apply(lambda x: x[:2])

当我查看df时，我会看到这样的列 ID1 | ID2 |位置| ID4
AERPLORDRVA | AOAAATDRLVA |没有| AE
ASDFGHJHASA | QWEFRFASEEW |家| AS
....

但是当我运行以下代码时，ID4列会发生变化 dd.to_parquet(path2newfile, df, compression='SNAPPY', partition_on = ['ID4'], has_nulls= ['Location'], fixed_text ={'ID1':11,'ID2':11,'ID4':2}

有什么想法吗？

我计划在ID4内加入groupby，从而提高查询效率 dfc = df.groupby(['ID4','ID1','ID2').count()

我正在使用24核和190GB的单个工作站（尽管dask群集仅识别123.65GB）

使用partition_on选项

1 个答案: