在传递带有$ {xxx} vars的HQL脚本时,似乎支持这一点,并且在实际执行模板渲染然后替换的阶段之前,它会被预处理以将它们转换为{{xxx}} Jinja样式具有来自用户提供的字典的值的那些。我相信这是因为在HiveOperator类中有这样的函数:
def prepare_template(self):
if self.hiveconf_jinja_translate:
self.hql = re.sub(
"(\$\{([ a-zA-Z0-9_]*)\})", "{{ \g<2> }}", self.hql)
if self.script_begin_tag and self.script_begin_tag in self.hql:
self.hql = "\n".join(self.hql.split(self.script_begin_tag)[1:])
问题是我无法弄清楚如何在模板呈现阶段之前触发这段代码。我有一个像这样的基本DAG脚本:
from airflow import DAG
from airflow.operators.hive_operator import HiveOperator
from datetime import datetime, timedelta
default_args = dict(
owner='mpetronic',
depends_on_past=False,
start_date=datetime(2017, 5, 2),
verbose=True,
retries=1,
retry_delay=timedelta(minutes=5)
)
dag = DAG(
dag_id='report',
schedule_interval='* * * * *',
user_defined_macros=dict(a=1, b=2),
default_args=default_args)
hql = open('/home/mpetronic/repos/airflow/resources/hql/report.hql').read()
task = HiveOperator(
task_id='report_builder',
hive_cli_conn_id='hive_dv',
schema='default',
mapred_job_name='report_builder',
hiveconf_jinja_translate=True,
dag=dag,
hql=hql)
我可以看到我的user_defined_macros字典使它成为与全局jinja上下文字典合并的代码,然后将其应用于我的HQL脚本以将其呈现为模板。但是,因为我的HQL是本机HQL,所以我要更新的所有变量都是$ {xxx}的形式,而jinja只是跳过它们。我需要气流首先调用prepare_template(),但只是不知道如何实现这一点。
我意识到我可以手动将我的HQL $ {xxx}更改为{{xxx}},因为它可以工作,但这似乎是一种反模式。我希望脚本能够原生或通过气流工作。这是函数,在TaskInstance类中,它实现了我手动更改的{{xxx}}值:
def render_templates(self):
task = self.task
jinja_context = self.get_template_context()
if hasattr(self, 'task') and hasattr(self.task, 'dag'):
if self.task.dag.user_defined_macros:
jinja_context.update(
self.task.dag.user_defined_macros)
rt = self.task.render_template # shortcut to method
for attr in task.__class__.template_fields:
content = getattr(task, attr)
if content:
rendered_content = rt(attr, content, jinja_context)
setattr(task, attr, rendered_content)
答案 0 :(得分:0)
我想出了我的问题。这是在所提到的方法中使用的正则表达式:
(\$\{([ a-zA-Z0-9_]*)\})
它没有考虑以下形式的直线变量:
${hivevar:var_name}
它不考虑模式中的冒号。该形式是使用beeline在命名空间中定义Hive变量的更标准方法。要使这个Jinja替换工作,您必须仅使用${var_name}
在HQL中引用变量,但是您只能使用直线来定义变量:
set hivevar:var_name=123;
我认为当你使用直线运行时,Airflow应该完全支持hivevar:var_name
样式的命名空间变量。直线是用于Hive的首选客户端。