Question

在构建XPath时，如何修改以下代码以忽略标记（表示标记开头和结尾的＆lt;和＆gt;字符）和标记内的属性？

下面是一个Python脚本，它将读取格式化的XML文档，然后从当前光标位置确定XPath：

def buildPath(view, selection):
    path = ['']
    lines = []

    region = sublime.Region(0, selection.end())
    for line in view.lines(region):
        contents = view.substr(line)
        lines.append(contents)

    level = -1
    spaces = re.compile('^\s+')
    for line in lines:
        space = spaces.findall(line)
        current = len(space[0]) if len(space) else 0
        node = re.sub(r'\s*<\??([\w.]:)?([\w\-.]+)(\s.)?>.*', r'\2', line)
        if current == level:
            path.pop()
            path.append(node)
        elif current > level:
            path.append(node)
            level = current
        elif current < level:
            path.pop()
            level = current

    return path

Answer 1

获取lxml（pip install lxml）的副本：

import lxml.etree
tree = lxml.etree.fromstring(xmlasstring)
tree.xpath('//node')

我如何修改以下Python脚本以忽略标记中的标记和属性？

1 个答案: