我正在设计一个应用程序,该应用程序应每15分钟从S3中读取一个txt文件,并解析由|分隔的数据。并将这些数据加载到3个不同aws区域的Aerospike集群中。 文件大小范围为0-32 GB,并且可能包含的记录数在5-1.3亿之间。
我计划在每个AWS区域中部署自定义Java流程,该流程将从S3下载文件并使用多个线程加载到Aerospike中。
我刚遇到aws胶。有人可以告诉我是否可以使用AWS胶水将大量数据加载到Aerospike中吗?或任何其他建议来建立高效且高性能的应用程序?
谢谢!
答案 0 :(得分:2)
AWS Glue进行提取,转换,然后加载到RedShift,EMR或Athena中。您应该看一下AWS Data Pipeline,使用ShellCommandActivity通过提取和转换来运行s3数据,并将转换后的数据写入Aerospike。