标签: python
我有大约100,000个10kb文件(csv格式的字节不是.csv)。 我想将这些文件合并为镶木地板格式的少量文件,并具有良好的性能。 (所有数据列均相等,但数据行不同)
现在,我的计划是并行读取与计算机核心数量相同的文件,并尝试使用大熊猫pyarrow为每个核心合并它们。
但是我不知道这是否是一个好方法。 拜托,你能建议我一个更好的方法吗?