spring cloud dataflow源文件|下gpfdist速度?

时间:2016-11-26 10:10:21

标签: spring spring-cloud-dataflow

有人可以帮助我。我有非常大的文件(csv格式有5列)aprox 500Mb-1Gb我需要插入greenplum数据库。我使用源文件读取这些文件,使用选项--mode = lines和sink gpfdist以在greenplum中导入这些数据,但此操作的速度非常低。我该如何调整?我尝试了批量选项batchcount flushcount flushtime批处理时间等,但没有运气。使用gpload,只需要大约20-30秒即可插入文件~800Mb。

file --directory = / data --filename-pattern = * .csv --mode = lines --prevent-duplicates = false --markers-json = false | gpfdist --db-user = **** --db-name = **** --column-delimiter =, - mode = insert --gpfdist-port = 8000 --db-password = **** --db-host = **** --table = test --flush-count = 200 --batch-count = 1000000 --batch-period = 2

TNX

0 个答案:

没有答案