在Scala或Java中读取非常广泛的数据集的有效方法

时间:2018-09-20 10:33:14

标签: java scala apache-spark bigdata

我需要在镶木地板列中提取非常宽的固定宽度数据集 Cureentky我正在scala中读取RDD的宽数据集,然后使用子字符串功能拆分列,然后写入镶木地板

当前固定宽度的记录接近1000万,加载数据需要2天。

任何人都可以告诉我哪种方法是在scala或java中读取宽数据集的最有效方法

0 个答案:

没有答案