在EMR群集上运行Spark验证

时间:2018-07-27 06:46:01

标签: mongodb amazon-s3 pyspark amazon-redshift amazon-emr

如何使用EMR从S3存储桶读取CSV文件,然后在EMR集群上执行Spark验证(文件中的SSN列为10位有效),以便有效记录必须存储在Redshift中,而无效记录必须存储在mongodb中?

0 个答案:

没有答案