我正在尝试对该网站文件上的假期表进行webscrap://:// C:/Users/alexa/AppData/Local/Temp/tmptz9muzp9.html 我有标题和第一列和第三列,但第二列看起来像:
<td>
<span>1<span>
<sup>er <sup>
<span> ...
当我使用我的xpath时:span_xpath = tree.xpath('//*[@id="main"]/article/div/table/tbody/tr/td/span/text()')
它返回一个列表,其中sup 1“ er”不在此处,并添加带有不希望的代码的另一行
['1',
'\xa0janvier (lundi)',
'1',
'\xa0janvier (mardi)',
'2 avril',
'1',
'\xa0mai (mardi)',
'1',
'\xa0mai (mercredi)',
'10 mai (jeudi)',
'21 mai',
'23 juin (samedi)',
'23 juin (dimanche)',
'15 août (mercredi)',
'1',
'\xa0novembre (jeudi)',
'1',
'\xa0novembre (vendredi)',
'25 décembre (mardi)',
'25 décembre (mercredi)',
'26 décembre (mercredi)']
我想用span和sup作为整个路径。
答案 0 :(得分:1)
基于问题和OP的评论,他应该能够对XPath查询进行一些修改以接受span
和sup
元素:
q = "//*[@id="main"]/article/div/table/tbody/tr/td/*[self::span|self::sup]/text()"
span_xpath = tree.xpath(q)