解析HTML / XML并查找原始文档中元素的位置

时间:2011-11-24 14:21:43

标签: python xml-parsing html-parsing lxml

有没有办法获取文档中元素的原始位置,即。在Python中解析html / xml时的开始和结束字符索引?

我查看了lxml文档但找不到任何内容。

例如

<a>1</a><b>2</b>

...

print tree.find('b').original_position
# result: (9, 16)

1 个答案:

答案 0 :(得分:1)

Google发现this,其要点是:文档格式错误很难,因为解析需要合成没有任何相应输入的有效令牌。有效文档是可能的,但大多数解析库都不支持它。