避免使用Google Dataproc日志记录

时间:2018-07-30 13:49:14

标签: apache-spark pyspark google-cloud-platform google-cloud-dataproc

我正在使用Google Dataproc执行数百万次操作,其中一个问题是日志记录数据大小。 我不执行任何显示或任何其他类型的打印,但是INFO的7行乘以数百万将得到很大的日志记录大小。

有什么方法可以避免Google Dataproc记录日志?

已经在Dataproc中尝试不成功:

https://cloud.google.com/dataproc/docs/guides/driver-output#configuring_logging

这些是我要摆脱的7条线:

  

18/07/30 13:11:54信息org.spark_project.jetty.util.log:记录已初始化@@

     

18/07/30 13:11:55 INFO org.spark_project.jetty.server.Server:.... z-SNAPSHOT

     

18/07/30 13:11:55 INFO org.spark_project.jetty.server.Server:已启动@ ...

     

18/07/30 13:11:55 INFO org.spark_project.jetty.server.AbstractConnector:已启动ServerConnector @ ...

     

18/07/30 13:11:56 INFO com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase:GHFS版本:...

     

18/07/30 13:11:57 INFO org.apache.hadoop.yarn.client.RMProxy:在...处连接到ResourceManager ...

     

18/07/30 13:12:01信息org.apache.hadoop.yarn.client.api.impl.YarnClientImpl:提交的应用程序application _...

1 个答案:

答案 0 :(得分:2)

您要寻找的是exclusion filter:您需要从控制台浏览到Stackdriver Logging>日志提取>排除项,然后单击“创建排除项”。如此处所述:

  

要创建日志排除,请编辑左侧的过滤条件以仅匹配   不想包含在Stackdriver Logging中的日志。后   已创建排除,匹配的日志将不再是   可在Stackdriver Logging中访问。

在您的情况下,过滤器应如下所示:

final static Logger logger = LoggerFactory.getLogger(MyClass.class);

try{
    ..
}
catch(NumberFormatException e){
    logger.error("issue in ...", e);
}