将带有1亿条记录的csv文件加载到dynamodb

时间:2018-05-09 18:28:47

标签: csv hive load amazon-dynamodb

我试图将大量数据加载到dynamodb服务。 我的csv包含1亿条记录。 每条记录包含4个字段(3个字符串类型和另一个BIGINT类型)。 我在dynamo db上创建了1个表: 1.带分区键和排序键以及两个LSI。 2. 10000 WCU

我尝试了几种方法但没有成功:

  1. 编写了一个脚本,该脚本使用batch_write boto3 api方法执行并行请求。

  2. 创建EMR集群,将csv数据加载到hive表,将hive表映射到dynamo表,然后通过15个并行进程从hive表加载到dynamodb表。

  3. 统计: 加载10K记录的时间为1:2分钟 接近2:3小时和20分钟加载26百万条记录

    任何帮助将不胜感激

0 个答案:

没有答案