如何使用Jinja

时间:2017-05-04 05:40:56

标签: hive jinja2 airflow

在传递带有$ {xxx} vars的HQL脚本时,似乎支持这一点,并且在实际执行模板渲染然后替换的阶段之前,它会被预处理以将它们转换为{{xxx}} Jinja样式具有来自用户提供的字典的值的那些。我相信这是因为在HiveOperator类中有这样的函数:

def prepare_template(self):
    if self.hiveconf_jinja_translate:
        self.hql = re.sub(
            "(\$\{([ a-zA-Z0-9_]*)\})", "{{ \g<2> }}", self.hql)
    if self.script_begin_tag and self.script_begin_tag in self.hql:
        self.hql = "\n".join(self.hql.split(self.script_begin_tag)[1:])

问题是我无法弄清楚如何在模板呈现阶段之前触发这段代码。我有一个像这样的基本DAG脚本:

from airflow import DAG
from airflow.operators.hive_operator import HiveOperator
from datetime import datetime, timedelta

default_args = dict(
    owner='mpetronic',
    depends_on_past=False,
    start_date=datetime(2017, 5, 2),
    verbose=True,
    retries=1,
    retry_delay=timedelta(minutes=5)
    )

dag = DAG(
    dag_id='report',
    schedule_interval='* * * * *',
    user_defined_macros=dict(a=1, b=2),
    default_args=default_args)

hql = open('/home/mpetronic/repos/airflow/resources/hql/report.hql').read()

task = HiveOperator(
    task_id='report_builder',
    hive_cli_conn_id='hive_dv',
    schema='default',
    mapred_job_name='report_builder',
    hiveconf_jinja_translate=True,
    dag=dag,
    hql=hql)

我可以看到我的user_defined_macros字典使它成为与全局jinja上下文字典合并的代码,然后将其应用于我的HQL脚本以将其呈现为模板。但是,因为我的HQL是本机HQL,所以我要更新的所有变量都是$ {xxx}的形式,而jinja只是跳过它们。我需要气流首先调用prepare_template(),但只是不知道如何实现这一点。

我意识到我可以手动将我的HQL $ {xxx}更改为{{xxx}},因为它可以工作,但这似乎是一种反模式。我希望脚本能够原生或通过气流工作。这是函数,在TaskInstance类中,它实现了我手动更改的{{xxx}}值:

def render_templates(self):
    task = self.task
    jinja_context = self.get_template_context()
    if hasattr(self, 'task') and hasattr(self.task, 'dag'):
        if self.task.dag.user_defined_macros:
            jinja_context.update(
                self.task.dag.user_defined_macros)

    rt = self.task.render_template  # shortcut to method
    for attr in task.__class__.template_fields:
        content = getattr(task, attr)
        if content:
            rendered_content = rt(attr, content, jinja_context)
            setattr(task, attr, rendered_content)

1 个答案:

答案 0 :(得分:0)

我想出了我的问题。这是在所提到的方法中使用的正则表达式:

(\$\{([ a-zA-Z0-9_]*)\}) 

它没有考虑以下形式的直线变量:

${hivevar:var_name} 

它不考虑模式中的冒号。该形式是使用beeline在命名空间中定义Hive变量的更标准方法。要使这个Jinja替换工作,您必须仅使用${var_name}在HQL中引用变量,但是您只能使用直线来定义变量:

set hivevar:var_name=123;

我认为当你使用直线运行时,Airflow应该完全支持hivevar:var_name样式的命名空间变量。直线是用于Hive的首选客户端。