标签: mongodb amazon-s3 pyspark amazon-redshift amazon-emr
如何使用EMR从S3存储桶读取CSV文件,然后在EMR集群上执行Spark验证(文件中的SSN列为10位有效),以便有效记录必须存储在Redshift中,而无效记录必须存储在mongodb中?