Question

我有一个用Scala编写的spark应用程序代码，它运行一系列Spark-SQL语句。通过对最终数据帧最后调用一个操作“ Count”来计算这些结果。我想知道从Spark-scala应用程序作业中进行日志记录的最佳方法是什么？由于最后所有数据帧（大约20个）都是通过单个操作来计算的，因此在记录某些语句的输出/顺序/成功时，我有什么选择。

问题本质上是很少通用的。由于spark在惰性评估中起作用，因此执行计划由spark决定，我想知道直到应用程序语句成功运行到什么时候以及该阶段的中间结果是什么。

这里的目的是监视长期运行的任务，并看到哪一点还可以，问题在哪里蔓延。

如果我们尝试在转换之前/之后放置日志，则在读取代码时将其打印出来。因此，必须在实际执行期间使用自定义消息来完成日志记录（在scala代码结尾处调用操作）。如果我尝试在代码之间加入count / take / first等，那么作业的执行速度会大大降低。

Answer 1

我了解您面临的问题。让我为此提出一个简单的解决方案。

您需要使用org.apache.log4j.Logger。使用以下代码行生成记录器消息。

org.apache.log4j.Logger logger = org.apache.log4j.Logger.getRootLogger();

logger.error(errorMessage);
logger.info(infoMessage);
logger.debug(debugMessage);

现在，为了将这些消息重定向到日志文件，您需要创建一个具有以下内容的log4j属性文件。

# Root logger option

# Set everything to be logged to the console
log4j.rootCategory=INFO, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Settings to quiet third party logs that are too verbose
log4j.logger.org.eclipse.jetty=OFF
log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=OFF
log4j.logger.org.spark-project.jetty.servlet.ServletHandler=OFF
log4j.logger.org.spark-project.jetty.server=OFF
log4j.logger.org.spark-project.jetty=OFF
log4j.category.org.spark_project.jetty=OFF
log4j.logger.Remoting=OFF
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR

# Setting properties to have logger logs in local file system 
log4j.appender.rolling=org.apache.log4j.RollingFileAppender
log4j.appender.rolling.encoding=UTF-8
log4j.appender.rolling.layout=org.apache.log4j.PatternLayout
log4j.appender.rolling.layout.conversionPattern=[%d] %p %m (%c)%n
log4j.appender.rolling.maxBackupIndex=5
log4j.appender.rolling.maxFileSize=50MB
log4j.logger.org.apache.spark=OFF
log4j.logger.org.spark-project=OFF
log4j.logger.org.apache.hadoop=OFF
log4j.logger.io.netty=OFF
log4j.logger.org.apache.zookeeper=OFF
log4j.rootLogger=INFO, rolling
log4j.appender.rolling.file=/tmp/logs/application.log

您可以在最后一条语句中命名日志文件。确保每个节点上的文件夹都具有适当的权限。

现在，我们需要在提交Spark作业时通过配置，如下所示。

 --conf spark.executor.extraJavaOptions=-Dlog4j.configuration=spark-log4j.properties --conf spark.driver.extraJavaOptions=-Dlog4j.configuration=spark-log4j.properties

然后

--files "location of spark-log4j.properties file"

希望这会有所帮助！

Answer 2

您可以从Maven使用log4j lib

<dependency>
<groupId>org.apache.logging.log4j</groupId>
<artifactId>log4j-api</artifactId>
<version>${log4j.version}</version>
</dependency>

对于日志记录，首先需要创建一个记录器对象，然后可以在不同的日志级别（例如信息，错误，警告）进行记录。以下是使用log4j在spark scala中记录信息的示例：

import org.apache.logging.log4j.LogManager
val logger = LogManager.getLogger(this.getClass.getName)

logger.info("logging message")

因此，要在某些时候添加信息，您可以在那时使用logger.info（“记录消息”）。

如何在Spark应用程序中进行有效的日志记录

2 个答案: