如何将数据集保存到Orc文件的不同部分

时间:2019-01-24 14:26:53

标签: java apache-spark amazon-s3

我正在尝试从ms服务器获取数据并将其保存到s3中的orc文件中。 为此,我写了

    Dataset<Row> fullDataset =  sparkSession.sqlContext()
            .read()
            .jdbc("jdbc:jtds:sqlserver://ip:port", sqlTableName, 
    getSqlConnectionProperties());
    fullDataset.write().mode(SaveMode.Overwrite).format("orc").save("s3://");

但是此代码将数据集保存到一个orc文件中(与表的行数无关)。 如何将数据集保存到orc文件的不同部分?因此,我假设执行保存方法后,它应该是存储桶中的part0.orc,part1.orc,part [n] .orc文件。

0 个答案:

没有答案