我将值分配为sc = pyspark.SparkContext()。它在jupyter笔记本电脑上运行并且没有响应很长时间,因为出现星号,并且没有显示任何错误。
我尝试了sc = SparkContext()
import pyspark
import os
from pyspark import SparkContext, SparkConf
sc = pyspark.SparkContext() # At this part it don't respond
from pyspark.sql import SQLContext
sqlc = SQLContext(sc)
它应该继续。
答案 0 :(得分:0)
对于Python,
from pyspark import SparkContext
sc = SparkContext(appName = "test")
但是由于您正在使用pyspark 2+版本,因此不需要初始化spark上下文。您可以创建一个火花会话并直接对其进行操作。
SPARK 2.0.0及更高版本,SparkSession提供了一个与基本Spark功能交互的单入口,并允许使用DataFrame和Dataset API编程Spark。 sparkSession中还提供了sparkContext可用的所有功能。
为了使用SQL,HIVE和流式处理的API,无需创建单独的上下文,因为sparkSession包含所有API。
要配置火花会话,
session = SparkSession.builder.getOrCreate()
答案 1 :(得分:-1)
尝试以下导入:from pyspark import *
之后,您可以像这样使用它:
sc = SparkContext()