使用boto3将数据上传到DynamoDB的最佳方法?

时间:2019-01-28 21:54:11

标签: amazon-web-services amazon-s3 amazon-dynamodb boto3

我正在使用Python boto3将数据上传到AWS。

我与AWS的专用连接速度为350 Mbps。

我有一个大的JSON文件,我想知道将这些信息直接上传到DynamoDB还是更好,还是先将其在S3上上传然后再使用数据管道将其上传到DynamodDB更好?

我的数据已经干净了,不需要处理了。我只需要以最有效,最可靠的方式将此信息公开给DynamoDB。

我的脚本将在具有以下规范的服务器上运行: 512 GB内存 48个CPU内核

以下是一些示例数据:

样本1:

{  
   "updated":{  
      "n":"20181226"
   },
   "periodo":{  
      "n":"20180823"
   },
   "tipos":{  
      "m":{  
         "Disponible":{  
            "m":{  
               "total":{  
                  "n":"200"
               },
               "Saldos de Cuentas de Ahorro":{  
                  "n":"300"
               }
            }
         }
      }
   },
   "mediana_disponible":{  
      "n":"588"
   },
   "mediana_ingreso":{  
      "n":"658"
   },
   "mediana_egreso":{  
      "n":"200"
   },
   "documento":{  
      "s":"2-2"
   }
}

对于此样本,这仅是一条记录,平均有6800万,文件大小为70GB。

样本2:

{  
   "updated":{  
      "n":"20190121"
   },
   "zonas":{  
      "s":"123"
   },
   "tipo_doc":{  
      "n":"3123"
   },
   "cods_sai":{  
      "s":"3,234234,234234"
   },
   "cods_cb":{  
      "s":"234234,5435,45"
   },
   "cods_atm":{  
      "s":"54,45,345;345,5345,435"
   },
   "num_doc":{  
      "n":"345"
   },
   "cods_mf":{  
      "s":"NNN"
   },
   "cods_pac":{  
      "s":"NNN"
   }
}

对于此样本,这仅是一条记录,平均有700万条记录,文件大小为10GB。

预先感谢

0 个答案:

没有答案