应用错误收集

如何使用pyspark根据id列将大文本拆分为较小的文件

时间：2018-08-08 08:24:13

标签： apache-spark pyspark

我在Azure blob存储上有一组TSV文件，需要根据记录ID对其进行拆分。

例如记录格式为：

|ID|Name|Address   |
|--|----|----------|
|34|Stephen|A House|

我想分割ID并按ID存储所有记录，例如34.csv

还要澄清一下，数据具有数百万行，具有多达80k个可能的ID-Write to multiple outputs by key Spark - one Spark job中概述的解决方案太慢。处理大约8000万行数据要花费一个多小时，这太慢了！

0 个答案:

没有答案