标签: java scala apache-spark bigdata
我需要在镶木地板列中提取非常宽的固定宽度数据集 Cureentky我正在scala中读取RDD的宽数据集,然后使用子字符串功能拆分列,然后写入镶木地板
当前固定宽度的记录接近1000万,加载数据需要2天。
任何人都可以告诉我哪种方法是在scala或java中读取宽数据集的最有效方法