我在Amazon S3中拥有大量数据。我想将这些数据加载到Spark Cluster(在Amazon EMR上),并对新加载的数据进行一些处理/查询。
Following is the approximate overall data size:
No. of Rows : ~ 20 billion records
No. of Columns: 2 columns ( numeric id, long text )
基于上面的数据大小,我想知道有多少节点集群足以在合理的响应时间内处理/查询数据。任何有关此类大小数据的节点的统计数据或数字都将受到赞赏。
如果除上述信息外还需要任何额外信息,请告诉我。