我遇到一个问题,如何使用python regex提取一些文本。 我只想使用正则表达式来做我想做的事情,而不是使用bs4之类的HTML模块。
其示例文本如下。
tr_range =
<tr>
<td class="table-basic-l">
Resolution
</td>
<td class="table-basic-l">
Horizontal Frequency (kHz)
</td>
<td class="table-basic-l">
Vertical Frequency (Hz)
</td>
</tr>
我只想使用正则表达式提取td元素下的所有文本,例如分辨率,水平频率(kHz),垂直频率(Hz)。
我正在尝试排除所有td元素的开头,但到目前为止,对我来说这并不那么容易。
答案 0 :(得分:2)
您可以通过使用正则表达式删除html标记来获取文本(仅适用于表(tr和td标记)):
local: true