我必须将数百万条记录加载到redshift DB中(这是必须的),最有效/最快的方法是什么?现在,我正在创建一个字典,在其中存储大块行,这些行被强制转换为字符串,以便可以将它们放在查询字符串中,然后使用Pandas:
send_key ctrl+shift+c
由于具有动态信息,因此每次都会从头开始创建表。
是否适合使用Pyspark(如果可能)或并行模块?在这种情况下,该怎么办?谢谢,问候。
答案 0 :(得分:2)
您有几种选择,但是将插件分批处理不是很好!
我的最爱:
您的选择将取决于您所考虑的用例。