Question

有没有办法获取文档中元素的原始位置，即。在Python中解析html / xml时的开始和结束字符索引？

我查看了lxml文档但找不到任何内容。

例如

<a>1</a><b>2</b>

...

print tree.find('b').original_position
# result: (9, 16)

Answer 1

Google发现this，其要点是：文档格式错误很难，因为解析需要合成没有任何相应输入的有效令牌。有效文档是可能的，但大多数解析库都不支持它。