我正在使用Google Dataproc执行数百万次操作,其中一个问题是日志记录数据大小。 我不执行任何显示或任何其他类型的打印,但是INFO的7行乘以数百万将得到很大的日志记录大小。
有什么方法可以避免Google Dataproc记录日志?
已经在Dataproc中尝试不成功:
https://cloud.google.com/dataproc/docs/guides/driver-output#configuring_logging
这些是我要摆脱的7条线:
18/07/30 13:11:54信息org.spark_project.jetty.util.log:记录已初始化@@
18/07/30 13:11:55 INFO org.spark_project.jetty.server.Server:.... z-SNAPSHOT
18/07/30 13:11:55 INFO org.spark_project.jetty.server.Server:已启动@ ...
18/07/30 13:11:55 INFO org.spark_project.jetty.server.AbstractConnector:已启动ServerConnector @ ...
18/07/30 13:11:56 INFO com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase:GHFS版本:...
18/07/30 13:11:57 INFO org.apache.hadoop.yarn.client.RMProxy:在...处连接到ResourceManager ...
18/07/30 13:12:01信息org.apache.hadoop.yarn.client.api.impl.YarnClientImpl:提交的应用程序application _...
答案 0 :(得分:2)
您要寻找的是exclusion filter:您需要从控制台浏览到Stackdriver Logging>日志提取>排除项,然后单击“创建排除项”。如此处所述:
要创建日志排除,请编辑左侧的过滤条件以仅匹配 不想包含在Stackdriver Logging中的日志。后 已创建排除,匹配的日志将不再是 可在Stackdriver Logging中访问。
在您的情况下,过滤器应如下所示:
final static Logger logger = LoggerFactory.getLogger(MyClass.class);
try{
..
}
catch(NumberFormatException e){
logger.error("issue in ...", e);
}