Spark Cluster中的节点数与大量非结构化数据之间的关系

时间:2016-05-25 13:14:41

标签: apache-spark amazon-emr bigdata

我在Amazon S3中拥有大量数据。我想将这些数据加载到Spark Cluster(在Amazon EMR上),并对新加载的数据进行一些处理/查询。

Following is the approximate overall data size:
No. of Rows : ~ 20 billion records
No. of Columns: 2 columns ( numeric id, long text )

基于上面的数据大小,我想知道有多少节点集群足以在合理的响应时间内处理/查询数据。任何有关此类大小数据的节点的统计数据或数字都将受到赞赏。

如果除上述信息外还需要任何额外信息,请告诉我。

0 个答案:

没有答案