人们使用什么来提供自助服务,可扩展的数据功能?
约束是:系统必须在AWS上运行且不使用EMR(或完全不使用hadoop / hdfs,因此也没有cloudera)
要明确的是,要求是:
从桌面上将一个或多个文件(可以是UI或API调用)上载到S3,并决定是否将其设为私有文件(仅对上传该文件的用户可见)或与特定用户共享< / p>
SQL查询这些文件的能力,包括其他用户上传并共享的文件之间的联接
使用EC2集群大规模运行python,R,java,scala代码(而不是单节点),而无需使用ec2。能够定期安排这些工作流的奖励积分