Question

我有一个简单的Spark程序，它读取JSON文件并发出CSV文件。在JSON文件中，数据被转义为双引号。 spark程序无法将该行读作有效的JSON字符串。

input.json

{\"key\" : \"k1\", \"value1\": \"Good String\", \"value2\": \"Good String\"}

input_1.json

"{\"key\" : \"k1\", \"value1\": \"Good String\", \"value2\": \"Good String\"}"

output.csv - 数据以损坏记录的形式返回

_corrupt_record,key,value1,value2
"{\\"key\\\" : \\\"k1\\\", \\\"value1\\\": \\\"Good String\\\", \\\"value2\\\": \\\"Good String\\\"}",,,

expected.csv

,k1,Good String,Good String

请查看下面的主要代码并提供建议

public static void main(String[] args) {
    SparkSession sparkSession = SparkSession.builder()
            .appName(TestSpark.class.getName()).master("local[1]").getOrCreate();

    SparkContext context = sparkSession.sparkContext();
    context.setLogLevel("ERROR");
    SQLContext sqlCtx = sparkSession.sqlContext();

    List<StructField> kvFields = new ArrayList<>();
    kvFields.add(DataTypes.createStructField("_corrupt_record", DataTypes.StringType, true));
    kvFields.add(DataTypes.createStructField("key", DataTypes.StringType, true));
    kvFields.add(DataTypes.createStructField("value1", DataTypes.StringType, true));
    kvFields.add(DataTypes.createStructField("value2", DataTypes.StringType, true));
    StructType employeeSchema = DataTypes.createStructType(kvFields);

    Dataset<Row> dataset = sparkSession.read()
                    .option("inferSchema", false)
                    .format("json")
                    .schema(employeeSchema)
                    .load("D:\\dev\\workspace\\java\\simple-kafka\\key_value.json");

    dataset.createOrReplaceTempView("sourceView");
    sqlCtx.sql("select * from sourceView")
            .write()
            .option("header", true)
            .format("csv")
            .save("D:\\dev\\workspace\\java\\simple-kafka\\output\\" + UUID.randomUUID().toString());
    sparkSession.close();
}

Answer 1

您需要阅读as文本并手动解析。我不使用Spark和Java，但这里是Scala等价物，可以用作伪代码：

val rdd: RDD[MyClass] = sc.textFile(path)
  .map { line =>
    val json = ... // turn line into valid json
    Try(parse(json))
      .recover {
        case NonFatal(ex) => // handle parse error
      }
      .map { jvalue =>
        // Convert the JSON into a case class
      }
      .get
  }

val ds: Dataset[MyClass] = spark.createDataset(rdd)

Spark SQL读取了一个已经转义双引号的JSON文件

1 个答案: