我试图将大量数据加载到dynamodb服务。 我的csv包含1亿条记录。 每条记录包含4个字段(3个字符串类型和另一个BIGINT类型)。 我在dynamo db上创建了1个表: 1.带分区键和排序键以及两个LSI。 2. 10000 WCU
我尝试了几种方法但没有成功:
编写了一个脚本,该脚本使用batch_write boto3 api方法执行并行请求。
创建EMR集群,将csv数据加载到hive表,将hive表映射到dynamo表,然后通过15个并行进程从hive表加载到dynamodb表。
统计: 加载10K记录的时间为1:2分钟 接近2:3小时和20分钟加载26百万条记录
任何帮助将不胜感激