我们有每隔2-3分钟从火花流应用程序到达HDFS的小型拼花地板文件。文件到达/ table / landing / dir
/表/着陆/文件1.parquet /表/着陆/file2.parquet ... /table/landing/file9.parquet
我们希望将这些文件移动到使用spark受管理表创建的/ table / base /表中,其中小文件在分区键上进行分区并与基本数据合并。这可以看作是“次要压实”
我们想从/ table / landing /中读取新文件,即自上次运行以来到达的文件。
任何想法,如何使用火花批处理应用程序来完成?