如何在python中的html字符串中最好地提取以下内容?

时间:2014-04-01 01:26:24

标签: python regex

假设我有以下带换行符的字符串:

<table>
<tr>
<td valign="top"><a href="ABext.html">House Exterior:</a></td><td>Round</td>
</tr>
<tr>
<td>EF</td><td><a href="AB.html">House AB</a></td></tr>
<tr>
<td valign="top">Settlement Date:</td>
<td valign="top">2/3/2013</td>
</tr>
</table>

使用以下内容创建简单python字典的最佳方法是什么:

我想将结算日期提取为字典或某种正则表达式匹配。这样做的最佳方式是什么?

注意:某个实用程序中的示例很好,但我正在寻找一种更好的方法,而不是让变量包含这样的文本,并且必须经过很多.next.next.next.next.next直到我终于到达了结算日期,这就是我首先发布这个问题的原因。

1 个答案:

答案 0 :(得分:1)

如果数据非常规则,则正则表达式不是一个糟糕的选择。这是一个直截了当的方法:

regex = re.compile(r'>Settlement Date:</td>[^>]*>([^<]*)')
match = regex.search(data)
print match.group(1)