应用错误收集

我们有每隔2-3分钟从火花流应用程序到达HDFS的小型拼花地板文件。文件到达/ table / landing / dir

/表/着陆/文件1.parquet /表/着陆/file2.parquet ... /table/landing/file9.parquet

我们希望将这些文件移动到使用spark受管理表创建的/ table / base /表中，其中小文件在分区键上进行分区并与基本数据合并。这可以看作是“次要压实”

我们想从/ table / landing /中读取新文件，即自上次运行以来到达的文件。

任何想法，如何使用火花批处理应用程序来完成？