标签: apache-spark parquet
所以我有一份日常工作,将CSV解析为Parquet。最佳做法是:
仅增量读取新数据。确保输入数据具有某种时间戳的唯一方法
仅增量输出新数据。当前作为一种解决方法,我将使用写入模式“覆盖”。但是我不认为这会有效吗?
答案 0 :(得分:0)
尽管细节很重要,但理论上您的问题的答案很简单
请务必注意,spark的Append模式可能会对性能产生影响; spark需要确保新的输出文件具有唯一的名称。您在目标中拥有的文件越多,spark识别新文件名所花费的时间就越长。
希望这会有所帮助。