读取非常广泛的数据集性能优化

时间:2018-09-18 08:57:29

标签: java scala apache-spark bigdata

我正在从源中导入固定宽度文件,该文件的宽度非常宽的数据集的固定宽度字符串长度接近120000,我需要从中提取20K列并写入镶木地板。

谁能建议我一些可以减少文件读取时间的性能优化技术。我正在将源文件读取为RDD。但是要花很多时间。

谁能建议像JAVA IO流这样的不同方式来减少时间。

0 个答案:

没有答案