Selenium和Python,从HTML正文获取没有任何标签的文本

时间:2018-12-21 19:59:50

标签: python selenium

需要使用Selenium和Python在标签之间进行句子:

       <h2 id='PO-PF2' class="section">Program Information</h2>
        Length: Two-year Ontario College Graduate Certificate program
        <br />Delivery Sequence:<br />

在不同的版本中使用find_element_by_xpath不会返回任何结果。

使用driver.find_element_by_tag_name("body").text,然后将其解析为必需的句子,但是还有其他方法吗?

预期结果:时长:安大略大学两年制研究生证书课程

UPD:

'(?<=Length:)([\s\S]*?)(?=\n)' 

涵盖了所有需要的案例

1 个答案:

答案 0 :(得分:1)

您可以使用正则表达式here(?=Length)(.*)(?<=program)

(?=...) 断言给定的子模式可以在这里匹配,而无需消耗字符

(?<=...) 确保给定的模式匹配,并终止于表达式的当前位置。图案必须具有固定的宽度。不消耗任何字符