我在Azure blob存储上有一组TSV文件,需要根据记录ID对其进行拆分。
例如记录格式为:
|ID|Name|Address |
|--|----|----------|
|34|Stephen|A House|
我想分割ID并按ID存储所有记录,例如34.csv
还要澄清一下,数据具有数百万行,具有多达80k个可能的ID-Write to multiple outputs by key Spark - one Spark job中概述的解决方案太慢。处理大约8000万行数据要花费一个多小时,这太慢了!