多个RDD与分区?

时间:2017-05-27 11:49:01

标签: apache-spark

以下行是创建单个RDD还是多个RDD

 val textFile = sc.textFile("README.txt")

我的理解是,它会创建一个RDDpartitions(每个partition默认为128 MB),其中每个partition可以在同一个Spark上进一步处理/不同的节点。我们可以问  RDD创建mutilple {{1}}而不是单身?如果是,它有任何利弊吗?

1 个答案:

答案 0 :(得分:0)

当你说使用val textFile = sc.textFile("README.txt") <读取文件时,Spark会创建一个包含一个或多个分区的RDD(可由您控制或由基础数据源确定),这是正确的/ p>

以这种方式思考:特定数据源将对应于单个RDD,并行度由该特定RDD中的分区数决定。 如果要使用其他数据源,可以选择在同一Spark上下文中创建另一个RDD。 在大多数情况下,尝试从同一数据源创建多个RDD是完全没有必要的。