Question

快速问题...我可以使用libxml2dom等创建/解析一大块html ...

然而，有没有办法以某种方式显示用于生成/提取html块的xpath ..我假设有一些方法/方法这样做我找不到..

例如：

import libxml2dom
d = libxml2dom.parseString(s, html=1)

## 

hdr="//div[3]/table[1]/tr/th"

thdr_ = d.xpath(hdr)
print "lent = ",len(thdr_)

此时，thdr_是一个数组/对象列表..每一个都指向一大块html（如果你愿意的话）

我试图找出是否有办法获得，比如说，xpath，列表中的thdr_ [x]元素/项...

即：

thdr_[0]=//div[3]/table[1]/tr[0]/th
thdr_[1]=//div[3]/table[1]/tr[1]/th
thdr_[2]=//div[3]/table[1]/tr[2]/th
.
.
.

任何想法/评论..

感谢

- 汤姆

Answer 1

我是通过迭代每个节点并将textContent与我期望的文本进行比较来完成的。对于模糊比较，我使用了来自difflib的SequenceMatcher类。