我有以下HTML:
<html>
<head>
<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
</head>
<body bgcolor="#FFFFFF" text="#000000">
hello,<br>
<br>
<img src="cid:part1.07060407.05050905@abc.com" alt=""><br>
<br>
thankz<br>
</body>
</html>
如何使用beautifulsoup替换<{1}}标记img
属性而?
答案 0 :(得分:1)
对于您展示的示例 - 您可能可以使用正则表达式。注意:正确的和健壮的方式正在使用HTML解析器。
一般的想法是找<img src=
然后在"
之间有一些东西并替换它......
import re
new_html = re.sub('<img src="(.*?)"', '<img src="something else"', old_html)
如果这停止处理不同的HTML片段,那么你将不得不计算出另一种有效的模式......(区分大小写,src可能会出现在标签的最后,或者可能有更多/更少的空格,或者没有引号,或......等......)