如何检测python中html标签中的空格,特殊字符

时间:2016-07-22 07:26:40

标签: python html regex

对于以下输入

I/O 1<   img   >    '<    input   >
I/O 1<'   img   >    '<    input   >

我想要所需的输出如下所示,如果<后面跟着空格,就会发生这种情况。

I/O 1<img>'<input>

任何人都可以帮我正则表达吗?

2 个答案:

答案 0 :(得分:2)

尝试<\s+\s+>>\s+

import re

s = "I/O 1<   img   >    '<    input   >"
s = re.sub(r"<\s+", "<", s)
s = re.sub(r"\s+>", ">", s)
s = re.sub(r">\s+", ">", s)
print(s)

输出:

I/O 1<img>'<input>

答案 1 :(得分:0)

s= "I/O 1<   img   >    '<    input   >"

使用s.find('&lt;')

查找html标记的开头

s [0:s.find('&lt;')]将在html标记开始之前选择从0到索引的子字符串

s [s.find('&lt;'):]将选择从html标签的开头到结尾的子字符串。

s.replace('','')将用no_spaces替换空格

( s[0:s.find('<')] ) + ( s[s.find('<'):].replace(' ','') )