如何在Python中使用正则表达式提取文本?

时间:2018-11-06 06:54:16

标签: python regex

我遇到一个问题,如何使用python regex提取一些文本。 我只想使用正则表达式来做我想做的事情,而不是使用bs4之类的HTML模块。

其示例文本如下。

tr_range =

<tr>
    <td class="table-basic-l">
        Resolution
    </td>
    <td class="table-basic-l">
        Horizontal Frequency (kHz)
    </td>
    <td class="table-basic-l">
        Vertical Frequency (Hz)
    </td>
</tr>

我只想使用正则表达式提取td元素下的所有文本,例如分辨率,水平频率(kHz),垂直频率(Hz)。

我正在尝试排除所有td元素的开头,但到目前为止,对我来说这并不那么容易。

1 个答案:

答案 0 :(得分:2)

您可以通过使用正则表达式删除html标记来获取文本(仅适用于表(tr和td标记)):

local: true