我想问一下,如果Spark SQL支持HQL,请插入覆盖目录'。 或者是否有另一种方法将结果集(从spark sql jdbc服务器)直接保存到HDFS?
答案 0 :(得分:0)
此问题有一个jira尚未解决,jira链接为https://issues.apache.org/jira/browse/SPARK-4131。但你可以这样做:
JavaSchemaRDD employeeSchemaRDD = context.sql("SELECT * FROM employee");
JavaRDD<String> strRDD=employeeSchemaRDD.map(new Function<Row, String>() {
public String call(Row row) throws Exception {
// TODO Auto-generated method stub
return row.get(1).toString();
}
});
strRDD.saveAsTextFile("outputdir");
将outputdir替换为要在其中写入输出的HDFS网址。 希望这个回答你的问题。