Question

我正在尝试识别每个HTML标签。我有一个正则表达式只是标识一个标签。但是我无法提取或识别这些标签。

我知道Beautiful Soup可用于提取HTML数据，但我希望在堆栈中使用这些HTML标签进行其他操作。

这是我尝试过的-

import re
the_data = '''
<div class="container-fluid">
<div class="row">
<div class="col">
<p>Some text updates here.</p>
</div>
</div>
</div>
'''
reg_exp_match = '''<((?=!\-\-)!\-\-[\s\S]*\-\-|((?=\?)\?[\s\S]*\?|((?=\/)\/[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*|[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:\s[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:=(?:"[^"]*"|'[^']*'|[^'"<\s]*))?)*)\s?\/?))> '''
pattern = re.compile(reg_exp_match)

x = re.findall(pattern, the_data)
print(x)

我无法借助此正则表达式提取标签。任何帮助将不胜感激。

Answer 1

我不需要使用这么复杂的正则表达式。此正则表达式<[^/>][^>]*>有助于识别所有标签。

无法使用Python从html文件中提取查找/提取所有标签

1 个答案: