如何使用没有Beautifulsoup的python替换IMG标记

时间:2014-02-12 11:12:40

标签: python

我有以下HTML:

 <html>
      <head>
           <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
      </head>
      <body bgcolor="#FFFFFF" text="#000000">
          hello,<br>
          <br>
          <img src="cid:part1.07060407.05050905@abc.com" alt=""><br>
          <br>
          thankz<br>
      </body>
 </html>

如何使用beautifulsoup替换<{1}}标记img属性

1 个答案:

答案 0 :(得分:1)

对于您展示的示例 - 您可能可以使用正则表达式。注意:正确的健壮的方式正在使用HTML解析器。

一般的想法是找<img src=然后在"之间有一些东西并替换它......

import re
new_html = re.sub('<img src="(.*?)"', '<img src="something else"', old_html)

如果这停止处理不同的HTML片段,那么你将不得不计算出另一种有效的模式......(区分大小写,src可能会出现在标签的最后,或者可能有更多/更少的空格,或者没有引号,或......等......)