我正在使用这个 -
在Amazon Redshift中编写python pandas数据框# [,1] [,2] [,3]
# [1,] 12 1 3
# [2,] 3 4 4
# [3,] 3 5 4
# [4,] 4 5 4
# [5,] 5 5 4
# [6,] 6 5 45
# [7,] 7 5 32
# [8,] NA 5 57
# [9,] NA 6 23
# [10,] NA 7 NA
# [11,] NA 8 NA
# [12,] NA NA NA
# [13,] NA NA NA
# [14,] NA NA NA
# [15,] NA NA NA
虽然我的数据帧只有几千行和50-100列,但写一个表需要15-20分钟。我想知道这是红移中的正常表现吗?有没有办法优化这个过程并加快编写表格?
答案 0 :(得分:2)
更好的方法是使用pandas
将您的数据框架存储为CSV,将其上传到S3并使用COPY
功能加载到Redshift中。这种方法甚至可以轻松处理数亿行。通常,Redshift写入性能不是很好 - 它用于处理由大量ETL操作(如COPY
)转储的数据加载。