我正在研究XLA,并且想直观地了解XLA执行的优化种类,特别是内核融合。我一直在使用以下标志转储图形并将其导入tensorboard中,但是这些似乎是优化之前的图形。我确认XLA正在从也已转储的HLA IR中融合内核。
我正在使用的环境变量及其值
TF_DUMP_GRAPH_PREFIX=hlo TF_XLA_FLAGS="--tf_xla_clustering_debug --tf_xla_auto_jit=2" XLA_FLAGS="--xla_dump_hlo_as_text --xla_dump_to=./hlo