如何使用spark

时间:2019-09-13 10:13:21

标签: apache-spark parquet

我们有每隔2-3分钟从火花流应用程序到达HDFS的小型拼花地板文件。文件到达/ table / landing / dir

/表/着陆/文件1.parquet /表/着陆/file2.parquet ... /table/landing/file9.parquet

我们希望将这些文件移动到使用spark受管理表创建的/ table / base /表中,其中小文件在分区键上进行分区并与基本数据合并。这可以看作是“次要压实”

我们想从/ table / landing /中读取新文件,即自上次运行以来到达的文件。

任何想法,如何使用火花批处理应用程序来完成?

0 个答案:

没有答案