我正在尝试识别每个HTML标签。 我有一个正则表达式只是标识一个标签。 但是我无法提取或识别这些标签。
我知道Beautiful Soup可用于提取HTML数据,但我希望在堆栈中使用这些HTML标签进行其他操作。
这是我尝试过的-
import re
the_data = '''
<div class="container-fluid">
<div class="row">
<div class="col">
<p>Some text updates here.</p>
</div>
</div>
</div>
'''
reg_exp_match = '''<((?=!\-\-)!\-\-[\s\S]*\-\-|((?=\?)\?[\s\S]*\?|((?=\/)\/[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*|[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:\s[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:=(?:"[^"]*"|'[^']*'|[^'"<\s]*))?)*)\s?\/?))> '''
pattern = re.compile(reg_exp_match)
x = re.findall(pattern, the_data)
print(x)
我无法借助此正则表达式提取标签。 任何帮助将不胜感激。
答案 0 :(得分:0)
我不需要使用这么复杂的正则表达式。此正则表达式<[^/>][^>]*>
有助于识别所有标签。