在Google Cloud Dataproc中,所有日志都存储在哪里?

时间:2016-03-31 05:12:39

标签: apache-spark pyspark yarn google-cloud-dataproc

我有一个PySpark作业,我正在一个1-master,3-worker集群中分发。

我有一些python打印命令可以帮助我调试我的代码。

print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')

print('Pad sequences (samples x time)')
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)

现在,当我在Google Dataproc上运行代码并将主设置为本地时,打印输出正确。但是,当我尝试在纱线上运行时,使用基于YARN的Spark进行打印时,打印输出不会出现在Dataproc UI的作业部分下的Google Cloud Console中。

我在哪里可以访问每个工作人员的这些python打印输出,以及未出现在Google Dataproc控制台中的

2 个答案:

答案 0 :(得分:0)

如果您正在使用Dataproc,为什么要通过Spark UI访问日志?更好的方法是:

  • 使用security.tls.version.max example

  • 提交作业
  • 提交作业后,您可以使用Cloud Platform Console,gcloud命令或云存储访问Cloud Dataproc作业驱动程序输出,如下所述。

Cloud Platform Console允许您查看作业的实时驱动程序输出。要查看作业输出,请转到项目的Cloud Dataproc Jobs部分,然后单击Job ID查看作业输出。

enter image description here

Reference Documentation

答案 1 :(得分:0)

如果您确实想要访问YARN界面(包含所有作业及其日志的详细列表),您可以执行以下操作:

只需点击你的主人。