如何使用pyspark根据id列将大文本拆分为较小的文件

时间:2018-08-08 08:24:13

标签: apache-spark pyspark

我在Azure blob存储上有一组TSV文件,需要根据记录ID对其进行拆分。

例如记录格式为:

|ID|Name|Address   |
|--|----|----------|
|34|Stephen|A House|

我想分割ID并按ID存储所有记录,例如34.csv

还要澄清一下,数据具有数百万行,具有多达80k个可能的ID-Write to multiple outputs by key Spark - one Spark job中概述的解决方案太慢。处理大约8000万行数据要花费一个多小时,这太慢了!

0 个答案:

没有答案