如何在Debug Jupyter Notebook中使用PySpark代码

时间:2017-01-21 13:47:49

标签: debugging pyspark

我想知道我可以在Jpyter笔记本中调试pyspark代码吗?我已经尝试使用ipdb模块在Jupyter中使用常规python代码的解决方案。

What is the right way to debug in iPython notebook?

但它不适用于带有pyspark内核的笔记本..

请注意:我的问题是关于在Jupypter笔记本中调试pyspark而不是在ItelliJ IDE或任何其他python IDE中调试。

背景:

  • 我在MacOS优胜美地。
  • 我的火花版本是1.6.2
  • Jupyter内核是:Apache Toree PySpark
  • 我安装了ipdb。

非常感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

如果您想在Jyupter笔记本上玩耍并调试PySpark代码,则在安装并设置Spark后(在此处向您展示如何https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f的好指南),您可以导入SparkSession并创建本地实例:< / p>

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[1]").appName("pyspark-test").getOrCreate()
df = spark.read.csv("test.csv", header=True)