Question

我将值分配为sc = pyspark.SparkContext（）。它在jupyter笔记本电脑上运行并且没有响应很长时间，因为出现星号，并且没有显示任何错误。

我尝试了sc = SparkContext()

import pyspark
import os
from pyspark import SparkContext, SparkConf
sc = pyspark.SparkContext()  # At this part it don't respond
from pyspark.sql import SQLContext
sqlc = SQLContext(sc)

它应该继续。

Answer 1

对于Python，

from pyspark import SparkContext
sc = SparkContext(appName = "test")

但是由于您正在使用pyspark 2+版本，因此不需要初始化spark上下文。您可以创建一个火花会话并直接对其进行操作。

SPARK 2.0.0及更高版本，SparkSession提供了一个与基本Spark功能交互的单入口，并允许使用DataFrame和Dataset API编程Spark。 sparkSession中还提供了sparkContext可用的所有功能。

为了使用SQL，HIVE和流式处理的API，无需创建单独的上下文，因为sparkSession包含所有API。

要配置火花会话，

session = SparkSession.builder.getOrCreate()

Answer 2

尝试以下导入：from pyspark import * 之后，您可以像这样使用它：

sc = SparkContext()

我如何使用Spark Context？

2 个答案: