有没有一种方法可以通过Rest读取大型CSV文件并写入HDFS(或创建Spark数据框架)

时间:2019-12-09 18:58:08

标签: scala rest apache-spark apache-spark-sql hdfs

我有一个从REST端点传入的大CSV(可能是100 MB到2 GB)。 我必须从Scala / Spark代码中读取此文件,然后将其写入HDFS并创建一个Spark数据帧。 我采用的方法是将cvs读取为字符串,然后将该字符串读取为spark数据帧,然后将其写入HDFS。 但是这种方法对于大型文件失败,因为大型文件的字符串会导致JVM内存问题。 这个问题有解决办法吗?

function handleExifData(exifData){
   // Do something with your data!
}

new ExifImage({image: image}, function (error, exifData) {
                        if (error)
                            console.log('Error: ' + error.message);

                        else 
                            handleExifData(exifData);
                    });

0 个答案:

没有答案