我只知道版本差异,但不知道功能或其他。 即Sparksession内部有sparkcontext和conf。
答案 0 :(得分:19)
在旧版本的Spark中,有不同的上下文是不同api的入口点(核心api的sparkcontext,spark-sql api的sql上下文,Dstream api的流上下文等......)这是源代码对于开发人员的困惑并且是spark团队的优化点,因此在最新版本的spark中只有一个入口点(spark会话),从中你可以获得各种其他入口点(spark上下文,流式传输)上下文等等。)
答案 1 :(得分:-3)
这是一个例子:
colName = "name of the column on wich you want to partition the query"
lowerBound = 0L
upperBound = xxxL // this is the max count in our database
numPartitions = 5 // example
spark.read.jdbc(url,tablename,colName,lowerBound,numPartitions,props).count() // this is a count but can be any query
计数将并行执行,结果将在rdd
的5个分区中