我终于能够连接到PySpark上下文中远程计算机上运行的Jupyter Notebook。
[my machine] <----> [hadoop-cluster](runs jupyter notebook in pyspark)
所以我现在可以做的是在我的远程机器上使用PyCharm运行代码:
(远程)解释器配置:
事情就是:我能够执行单元格,处理数据以及plt.plot()
或print()
内容 - 但是有一个问题:
如果我重新运行一个单元格,例如
print(nb_total_documents)
输出不再显示。我必须重新运行5到10次单元格,然后输出会再次出现。
1。出现:
2。重新运行会让它消失:
第3。多次重新运行会让它再次出现:
特别是对于运行时间更长的代码,这会有点令人沮丧。
我能说出的唯一错误可能与之相关
错误:无法从流
读取整数值
在Python控制台中。
知道问题可能在这里吗?