我有一个PySpark作业,我正在一个1-master,3-worker集群中分发。
我有一些python打印命令可以帮助我调试我的代码。
print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')
print('Pad sequences (samples x time)')
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)
现在,当我在Google Dataproc上运行代码并将主设置为本地时,打印输出正确。但是,当我尝试在纱线上运行时,使用基于YARN的Spark进行打印时,打印输出不会出现在Dataproc UI的作业部分下的Google Cloud Console中。
我在哪里可以访问每个工作人员的这些python打印输出,以及未出现在Google Dataproc控制台中的
答案 0 :(得分:0)
如果您正在使用Dataproc,为什么要通过Spark UI访问日志?更好的方法是:
使用security.tls.version.max
example
提交作业后,您可以使用Cloud Platform Console,gcloud命令或云存储访问Cloud Dataproc作业驱动程序输出,如下所述。
Cloud Platform Console允许您查看作业的实时驱动程序输出。要查看作业输出,请转到项目的Cloud Dataproc Jobs部分,然后单击Job ID查看作业输出。
答案 1 :(得分:0)
如果您确实想要访问YARN界面(包含所有作业及其日志的详细列表),您可以执行以下操作:
只需点击你的主人。