应用错误收集

我有一个从REST端点传入的大CSV（可能是100 MB到2 GB）。我必须从Scala / Spark代码中读取此文件，然后将其写入HDFS并创建一个Spark数据帧。我采用的方法是将cvs读取为字符串，然后将该字符串读取为spark数据帧，然后将其写入HDFS。但是这种方法对于大型文件失败，因为大型文件的字符串会导致JVM内存问题。这个问题有解决办法吗？

function handleExifData(exifData){
   // Do something with your data!
}

new ExifImage({image: image}, function (error, exifData) {
                        if (error)
                            console.log('Error: ' + error.message);

                        else 
                            handleExifData(exifData);
                    });

有没有一种方法可以通过Rest读取大型CSV文件并写入HDFS（或创建Spark数据框架）

0 个答案: