我如何使用Spark Context?

时间:2019-05-29 13:43:05

标签: python apache-spark pyspark jupyter-notebook jupyter

我将值分配为sc = pyspark.SparkContext()。它在jupyter笔记本电脑上运行并且没有响应很长时间,因为出现星号,并且没有显示任何错误。

我尝试了sc = SparkContext()

import pyspark
import os
from pyspark import SparkContext, SparkConf
sc = pyspark.SparkContext()  # At this part it don't respond
from pyspark.sql import SQLContext
sqlc = SQLContext(sc)

它应该继续。

2 个答案:

答案 0 :(得分:0)

对于Python,

from pyspark import SparkContext
sc = SparkContext(appName = "test")

但是由于您正在使用pyspark 2+版本,因此不需要初始化spark上下文。您可以创建一个火花会话并直接对其进行操作。

SPARK 2.0.0及更高版本,SparkSession提供了一个与基本Spark功能交互的单入口,并允许使用DataFrame和Dataset API编程Spark。 sparkSession中还提供了sparkContext可用的所有功能。

为了使用SQL,HIVE和流式处理的API,无需创建单独的上下文,因为sparkSession包含所有API。

要配置火花会话,

session = SparkSession.builder.getOrCreate()

答案 1 :(得分:-1)

尝试以下导入:from pyspark import * 之后,您可以像这样使用它:

sc = SparkContext()