应用错误收集

使用AWS处理无服务器的大量数据

时间：2018-03-10 22:12:46

标签： amazon-web-services amazon-s3 aws-lambda serverless

我的DynamoDB数据库中每个用户有大约300,000个事务。

如果这是最便宜的方式，我想以无服务器方式计算基于这些交易的税款。

我的思维过程是我应该使用AWS Step Functions来获取所有事务，将它们存储到Amazon S3中，然后使用AWS Step Functions迭代CSV文件中的每一行。问题是，一旦我在CSV中读取一行，我就必须将其存储在内存中，以便我可以将其用于以后的计算。如果这个Lambda函数没时间用完，那么我无法保存状态，所以这条路线不合理。

另一种成本很高的路线是在DynamoDB中拥有每个事务的两个副本，并在复制表上执行操作，保持原始数据不变。这个问题是DynamoDB表最终是一致的，并且可能存在我读取脏项的情况。

2 个答案:

答案 0 :(得分：0)

无服务器是事件驱动处理的理想选择，但对于批量使用情况，使用EC2实例可能更容易。

Amazon EC2 t2.nano实例小于1c /小时，具有现货定价的t2.micro实例，并且它们是每秒定价。

答案 1 :(得分：0)

这里确实没有足够的细节来提出一个好的建议。例如，DynamoDB表中的数据是如何组织的？你多久计划一次这份工作？你需要多快完成这项工作？

你提到了价格所以我认为这是你最大的因素。

对于事件驱动的处理，Lambda往往最便宜。我们的想法是，对于任何EC2 / ECS事件驱动系统，您需要过量配置以处理流量峰值。过度配置的计算能力大部分时间处于空闲状态，但您仍需支付费用。在lambda的情况下，你需要为计算能力支付更多费用，但是你需要更少的钱来节省资金，因为你不需要过度供应。

批处理系统倾向于很好地适应EC2，因为它们通常在整个工作期间使用100％的计算能力。在作业结束时，您将关闭所有实例，并且不再为它们付费。此外，如果您使用现货定价，您可以真正降低计算能力的价格。