apache-spark - Apache Spark Shell：如何设置分区数？

Apache Spark Shell：如何设置分区数？

时间：2018-09-04 22:21:34

标签： apache-spark

Apache spark shell上下文：使用shell时如何设置分区数：我正在审查的文档中尚不清楚。只是默认的2个分区吗？

1 个答案:

答案 0 :(得分：0)

但是分区的数量是什么？ Spark中有许多不同的参数（例如，在使用RDD进行转换时，用于改组spark.sql.shuffle.partitions，spark.default.parallelism）。您还可以使用COALESCE / REPARTITION等更改Dateset / Datafrem的分区数。

在本地PC或hadoop群集上工作时，数据集的默认分区数量也不同。

您需要指定需要为分区设置的确切内容吗？

这里有一些很好的链接，可以进一步阐明您的问题：

How does Spark partition(ing) work on files in HDFS?

Spark Partitions: Loading a file from the local file system on a Single Node Cluster

如何设置newAPIHadoopFile的分区数？
设置CassandraTable中的分区数
Spark如何计算分区数？
Spark默认的分区数
如何计算spark中的分区数和并发任务数
如何获取DataFrameWriter写入的分区数
spark.csv如何确定读取的分区数？
Apache Spark Shell：如何设置分区数？
排序后的数据帧分区数？
如何在Spark中设置“映射器” /分区的数量

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？