格式化JSON中的气流日志

时间:2018-10-26 21:10:47

标签: python logging airflow python-jsonschema

我需要将Apache Airflow日志以JSON格式记录到stdout。气流似乎并未开箱即用。我发现了几个可以执行此任务的python模块,但是我无法使实现正常工作。

当前,我正在airflow/utils/logging.py中应用一个类来修改记录器,如下所示:

from pythonjsonlogger import jsonlogger

class StackdriverJsonFormatter(jsonlogger.JsonFormatter, object):
def __init__(self, fmt="%(levelname) %(asctime) %(nanotime) %(severity) %(message)", style='%', *args, **kwargs):
    jsonlogger.JsonFormatter.__init__(self, fmt=fmt, *args, **kwargs)

def process_log_record(self, log_record):
    if log_record.get('level'):
        log_record['severity'] = log_record['level']
        del log_record['level']
    else: 
        log_record['severity'] = log_record['levelname']
        del log_record['levelname']
    if log_record.get('asctime'):
        log_record['timestamp'] = log_record['asctime']
        del log_record['asctime']
    now = datetime.datetime.now().strftime('%Y-%m-%dT%H:%M:%S.%fZ')
    log_record['nanotime'] = now
    return super(StackdriverJsonFormatter, self).process_log_record(log_record)

我正在/airflow/settings.py中实现此代码,如下所示:

from airflow.utils import logging as logconf

def configure_logging(log_format=LOG_FORMAT):
     handler = logconf.logging.StreamHandler(sys.stdout)
     formatter = logconf.StackdriverJsonFormatter()
     handler.setFormatter(formatter)
     logging = logconf.logging.getLogger()
     logging.addHandler(handler)
''' code below was original airflow source code
     logging.root.handlers = []
     logging.basicConfig(
         format=log_format, stream=sys.stdout, level=LOGGING_LEVEL)
'''

我尝试了几种不同的变体,但是无法让python-json-logger将日志转换为JSON。也许我没有进入根记录器?我考虑过的另一个选项是手动将日志格式化为JSON字符串。也没有运气。任何其他想法,技巧或支持都将受到赞赏。

干杯!

2 个答案:

答案 0 :(得分:3)

我不知道您是否曾经解决过这个问题,但是经过一番令人沮丧的修补后,我最终使它与气流保持了良好的配合。作为参考,我大量阅读了本文,以使其正常工作:https://www.astronomer.io/guides/logging/。主要问题是气流记录仅接受用于记录格式的字符串模板,而json-logging无法插入该模板。因此,您必须创建自己的日志记录类并将其连接到自定义的日志记录配置类。

  1. 将日志模板here复制到您的src/config文件夹中,然后将DEFAULT_CONFIG_LOGGING更改为CONFIG_LOGGING。成功后,调高气流,您将收到有关气流启动的日志消息,内容为Successfully imported user-defined logging config from logging_config.LOGGING_CONFIG。如果这是config文件夹中的第一个.py文件,请不要忘记添加一个空白的__init__.py文件来让python将其拾取

  2. 编写您的自定义JsonFormatter以注入到处理程序中。我确实是从这个one中挖出的。

  3. 编写自定义日志处理程序类。由于我一直在寻找JSON日志记录,因此我的样子是这样的:

from airflow.utils.log.file_processor_handler import FileProcessorHandler
from airflow.utils.log.file_task_handler import FileTaskHandler
from airflow.utils.log.logging_mixin import RedirectStdHandler
from pythonjsonlogger import jsonlogger

class JsonStreamHandler(RedirectStdHandler):
    def __init__(self, stream):
        super(JsonStreamHandler, self).__init__(stream)
        json_formatter = CustomJsonFormatter('(timestamp) (level) (name) (message)')
        self.setFormatter(json_formatter)


class JsonFileTaskHandler(FileTaskHandler):
    def __init__(self, base_log_folder, filename_template):
        super(JsonFileTaskHandler, self).__init__(base_log_folder, filename_template)
        json_formatter = CustomJsonFormatter('(timestamp) (level) (name) (message)')
        self.setFormatter(json_formatter)


class JsonFileProcessorHandler(FileProcessorHandler):
    def __init__(self, base_log_folder, filename_template):
        super(JsonFileProcessorHandler, self).__init__(base_log_folder, filename_template)
        json_formatter = CustomJsonFormatter('(timestamp) (level) (name) (message)')
        self.setFormatter(json_formatter)


class JsonRotatingFileHandler(RotatingFileHandler):
    def __init__(self, filename, mode, maxBytes, backupCount):
        super(JsonRotatingFileHandler, self).__init__(filename, mode, maxBytes, backupCount)
        json_formatter = CustomJsonFormatter('(timestamp) (level) (name) (message)')
        self.setFormatter(json_formatter)
  1. 将它们连接到自定义logging_config.py文件中的日志记录配置。
'handlers': {
    'console': {
        'class': 'logging_handler.JsonStreamHandler',
        'stream': 'sys.stdout'
    },
    'task': {
        'class': 'logging_handler.JsonFileTaskHandler',
        'base_log_folder': os.path.expanduser(BASE_LOG_FOLDER),
        'filename_template': FILENAME_TEMPLATE,
    },
    'processor': {
        'class': 'logging_handler.JsonFileProcessorHandler',
        'base_log_folder': os.path.expanduser(PROCESSOR_LOG_FOLDER),
        'filename_template': PROCESSOR_FILENAME_TEMPLATE,
    }
}
...

DEFAULT_DAG_PARSING_LOGGING_CONFIG = {
    'handlers': {
        'processor_manager': {
            'class': 'logging_handler.JsonRotatingFileHandler',
            'formatter': 'airflow',
            'filename': DAG_PROCESSOR_MANAGER_LOG_LOCATION,
            'mode': 'a',
            'maxBytes': 104857600,  # 100MB
            'backupCount': 5
        }
    }
...

并且应该在DAG日志和输出中输出json日志。

希望这会有所帮助!

答案 1 :(得分:0)

我假定您不需要自己进行Airflow流程以将日志输出到stdout,并且足以将其他流程将Airflow的日志输出到stdout。

您可以编写一个脚本,等待新日志出现在$AIRFLOW_HOME/logs中,读取并转换为JSON,然后将转换后的日志输出到stdout。