我有一个巨大的xml,我必须使用xpath每天在hive中处理。 由于xpath与注释和命名空间不兼容,我正在寻找一个bash / python脚本来删除它。
标签数量和评论行数量不会每天不变, 所以我不能使用常量标识xslt。整齐也不存在,所以这对我来说不是一个选择。
有关使用bash或python解析此问题的任何指导都会有所帮助。
示例xml
<?xml version="1.0" encoding="utf-8"?>
<tag1 xmlns:xsi="--dummy--" xmlns="--dummy---">
<tag2>
<!-- Default Codec Profile -->
<configitem name="att1" type="string">attval</configitem>
</tag2>