标签: scala apache-spark partition-by
Spark中两种类型的分区有什么区别?
例如:我从磁盘加载文本文件toto.csv到spark cluster
val text = sc.textFile("toto.csv", 100)
=>它将我的文件分成100个没有“规则”的片段
之后,如果我这样做
val partion = text.partitionBy(new HashPartitioner(100))
=>它按文件“分割”我的文件到100分区
感谢任何确认或建议