应用错误收集

我在Amazon S3中拥有大量数据。我想将这些数据加载到Spark Cluster（在Amazon EMR上），并对新加载的数据进行一些处理/查询。

Following is the approximate overall data size:
No. of Rows : ~ 20 billion records
No. of Columns: 2 columns ( numeric id, long text )

基于上面的数据大小，我想知道有多少节点集群足以在合理的响应时间内处理/查询数据。任何有关此类大小数据的节点的统计数据或数字都将受到赞赏。

如果除上述信息外还需要任何额外信息，请告诉我。