Question

我只知道版本差异，但不知道功能或其他。即Sparksession内部有sparkcontext和conf。

Answer 1

在旧版本的Spark中，有不同的上下文是不同api的入口点（核心api的sparkcontext，spark-sql api的sql上下文，Dstream api的流上下文等......）这是源代码对于开发人员的困惑并且是spark团队的优化点，因此在最新版本的spark中只有一个入口点（spark会话），从中你可以获得各种其他入口点（spark上下文，流式传输）上下文等等。）

Answer 2

这是一个例子：

colName = "name of the column on wich you want to partition the query"
lowerBound = 0L
upperBound = xxxL // this is the max count in our database
numPartitions = 5 // example
spark.read.jdbc(url,tablename,colName,lowerBound,numPartitions,props).count() // this is a count but can be any query

计数将并行执行，结果将在rdd

的5个分区中

SparkSession和SparkContext有什么区别？

2 个答案: