我有3个问题,针对以下情况: 我正在尝试将我的历史记录从RDS postgresql迁移到S3。我的数据库中有大约十亿行数据, Q1)有没有办法告诉aws胶水作业要加载哪些行?例如,我希望它从某个日期开始加载数据? PostgreSQL数据源没有书签功能,
Q2)处理完数据后,胶水作业会自动为s3输出对象创建一个名称,我知道我可以在DynamicFrame写入中指定路径,但是我可以指定对象名称吗?如果是这样,怎么样?我找不到这个选项。
Q3)我在一个包含100行数据的样本表上尝试了我的胶水作业,它自动将输出分成20个文件,每个文件中有5行,如何在作业中指定批量大小? / p>
提前致谢
答案 0 :(得分:0)
coalesce
选项。同样从Spark 2.2开始,可以通过设置config spark.sql.files.maxRecordsPerFile