我正在使用spark 1.5。我想从HDFS中的文件创建dataframe
。 HDFS文件包含json
个数据,其中包含大量按顺序输入文件格式的字段。
有没有办法在java中优雅地做到这一点?我事先并不知道json的结构/领域。
我可以将序列文件中的输入作为RDD,如下所示:
JavaPairRDD<LongWritable,BytesWritable> inputRDD = jsc.sequenceFile("s3n://key_id:secret_key@file/path", LongWritable.class, BytesWritable.class);
JavaRDD<String> events = inputRDD.map(
new Function<Tuple2<LongWritable,BytesWritable>, String>() {
public String call(Tuple2<LongWritable,BytesWritable> tuple) {
return Text.decode(tuple._2.getBytes());
}
}
);
如何从此RDD创建数据框?
答案 0 :(得分:0)
我在序列文件中对json数据执行了以下操作:
JavaRDD<String> events = inputRDD.map(
new Function<Tuple2<LongWritable,BytesWritable>, String>() {
public String call(Tuple2<LongWritable,BytesWritable> tuple) throws JSONException, UnsupportedEncodingException {
String valueAsString = new String(tuple._2.getBytes(), "UTF-8");
JSONObject data = new JSONObject(valueAsString);
JSONObject payload = new JSONObject(data.getString("payload"));
String atlas_ts = "";
return payload.toString();
}
}
);