标签: apache-spark hadoop amazon-emr
我是AWS EMR的新手,正在尝试创建一个集群来处理来自S3的数据。
我有一个用例,每小时有增量数据馈入集群。现在,我将使用Hadoop和Spark启动集群。处理完数据后,我将终止集群。
将数据存储在hadoop上并使用spark处理数据是否有效?任何链接都很好。