Question

我正在尝试在databricks中运行以下代码，以便调用spark会话并使用它来打开csv文件：

spark
fireServiceCallsDF = spark.read.csv('/mnt/sf_open_data/fire_dept_calls_for_service/Fire_Department_Calls_for_Service.csv', header=True, inferSchema=True)

我收到以下错误：

NameError:name 'spark' is not defined

知道可能出现什么问题吗？

我也尝试过：

 from pyspark.sql import SparkSession

但得到以下回应：

ImportError: cannot import name SparkSession

如果有帮助，我会尝试按照以下示例（如果您从17:30开始观看，您会更好理解）： https://www.youtube.com/watch?v=K14plpZgy_c&list=PLIxzgeMkSrQ-2Uizm4l0HjNSSy2NxgqjX

Answer 1

我通过使用以下导入来使它起作用：

from pyspark import SparkConf                                                                                                                 
from pyspark.context import SparkContext                                                                                                      
from pyspark.sql import SparkSession, SQLContext

我通过查看pyspark代码来了解这个想法，因为我发现在交互shell中正在读取csv。

Answer 2

请注意您使用的示例代码适用于Spark版本2.x

＆＃34;火花＆＃34;和＃34; SparkSession＆＃34;不适用于Spark 1.x.您收到的错误消息指向可能的版本问题（Spark 1.x）。

检查您正在使用的Spark版本。

Pyspark读取csv - NameError：name＆＃39; spark＆＃39;没有定义

2 个答案: