我正在使用Python boto3将数据上传到AWS。
我与AWS的专用连接速度为350 Mbps。
我有一个大的JSON文件,我想知道将这些信息直接上传到DynamoDB还是更好,还是先将其在S3上上传然后再使用数据管道将其上传到DynamodDB更好?
我的数据已经干净了,不需要处理了。我只需要以最有效,最可靠的方式将此信息公开给DynamoDB。
我的脚本将在具有以下规范的服务器上运行: 512 GB内存 48个CPU内核
以下是一些示例数据:
样本1:
{
"updated":{
"n":"20181226"
},
"periodo":{
"n":"20180823"
},
"tipos":{
"m":{
"Disponible":{
"m":{
"total":{
"n":"200"
},
"Saldos de Cuentas de Ahorro":{
"n":"300"
}
}
}
}
},
"mediana_disponible":{
"n":"588"
},
"mediana_ingreso":{
"n":"658"
},
"mediana_egreso":{
"n":"200"
},
"documento":{
"s":"2-2"
}
}
对于此样本,这仅是一条记录,平均有6800万,文件大小为70GB。
样本2:
{
"updated":{
"n":"20190121"
},
"zonas":{
"s":"123"
},
"tipo_doc":{
"n":"3123"
},
"cods_sai":{
"s":"3,234234,234234"
},
"cods_cb":{
"s":"234234,5435,45"
},
"cods_atm":{
"s":"54,45,345;345,5345,435"
},
"num_doc":{
"n":"345"
},
"cods_mf":{
"s":"NNN"
},
"cods_pac":{
"s":"NNN"
}
}
对于此样本,这仅是一条记录,平均有700万条记录,文件大小为10GB。
预先感谢