Question

以下行是创建单个RDD还是多个RDD？

 val textFile = sc.textFile("README.txt")

我的理解是，它会创建一个RDD个partitions（每个partition默认为128 MB），其中每个partition可以在同一个Spark上进一步处理/不同的节点。我们可以问 RDD创建mutilple {{1}}而不是单身？如果是，它有任何利弊吗？

Answer 1

当你说使用val textFile = sc.textFile("README.txt") <读取文件时，Spark会创建一个包含一个或多个分区的RDD（可由您控制或由基础数据源确定），这是正确的/ p>

以这种方式思考：特定数据源将对应于单个RDD，并行度由该特定RDD中的分区数决定。如果要使用其他数据源，可以选择在同一Spark上下文中创建另一个RDD。在大多数情况下，尝试从同一数据源创建多个RDD是完全没有必要的。