标签: python xml-parsing html-parsing lxml
有没有办法获取文档中元素的原始位置,即。在Python中解析html / xml时的开始和结束字符索引?
我查看了lxml文档但找不到任何内容。
例如
<a>1</a><b>2</b>
...
print tree.find('b').original_position # result: (9, 16)
答案 0 :(得分:1)
Google发现this,其要点是:文档格式错误很难,因为解析需要合成没有任何相应输入的有效令牌。有效文档是可能的,但大多数解析库都不支持它。