PySpark打印到控制台

时间:2016-05-24 07:40:43

标签: python-2.7 pyspark google-cloud-dataproc

在数据服务器上运行PySpark作业时,如此

gcloud --project <project_name> dataproc jobs submit pyspark --cluster <cluster_name> <python_script>

我的打印声明不会显示在我的终端中。

在云上运行作业时,有没有办法在PySpark中将数据输出到终端?

修改:我想在转化中打印/记录信息。例如:

def print_funct(l):
    print(l)
    return l

rddData.map(lambda l: print_funct(l)).collect()

应打印RDD rddData中的每一行数据。

进行一些挖掘,我发现了这个answer for logging,然而,测试它为我提供了this question的结果,其答案表明在转换过程中无法进行日志记录

1 个答案:

答案 0 :(得分:8)

在转换中打印或记录将最终出现在Spark执行程序日志中,可以通过YARN ResourceManager Web UI通过应用程序的AppMaster或HistoryServer访问。

您也可以收集与输出一起打印的信息(例如在词典或元组中)。您也可以将它存放在累加器中,然后从驱动程序中打印出来。

如果您正在进行大量的print语句调试,您可能会发现SSH更快地进入主节点并使用pyspark REPL或IPython来试验您的代码。这也允许您使用--master local标志,这将使您的打印语句出现在stdout中。