我在Jupyter笔记本中运行以下代码,但得到ImportError。请注意,' udf'可以在Jupyter进口。
from pyspark.sql.functions import pandas_udf
ImportError Traceback(最近一次调用 最后)in() ----> 1来自pyspark.sql.functions import pandas_udf
ImportError:无法导入名称' pandas_udf'
任何人都知道如何修复它?非常感谢你!
答案 0 :(得分:0)
看起来您是单独启动jupyter笔记本,而不是使用jupyter笔记本启动pyspark,该命令如下:
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
如果jupyter笔记本服务器进程正在另一台计算机上运行,则可能要使用此命令将其提供给服务器的所有IP地址。
(注意:如果您的服务器位于公共或不受信任的网络上,则可能是潜在的安全问题)
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook --ip=0.0.0.0 " pyspark
如果您像这样启动jupyter笔记本后问题仍然存在,我将修改我的答案。