标签: java scala apache-spark bigdata
我正在从源中导入固定宽度文件,该文件的宽度非常宽的数据集的固定宽度字符串长度接近120000,我需要从中提取20K列并写入镶木地板。
谁能建议我一些可以减少文件读取时间的性能优化技术。我正在将源文件读取为RDD。但是要花很多时间。
谁能建议像JAVA IO流这样的不同方式来减少时间。