刚开始使用XPath,我正在使用lxml解析一个网站。
最好是这样做:
number_I_want = parsed_body.xpath('.//b')[6].text
#or
number_I_want = parsed_body.xpath('.//span[@class="class_name"]')[0].text
我现在宁愿发现这一点,而不是更进一步。实际上我无法得到类似第二个表达式的东西来适应我的特定情况。
但基本上,问题是:依靠class
名称(或其他关键字)或出现指数(例如第7次出现粗体文本)更好吗?
答案 0 :(得分:1)
我说依靠id
属性或默认情况下class
通常比依赖于特定标记的出现次数和顺序更好。
这对页面内容的更改更具弹性。