我想在尖括号中提取文字,如:
<p><verb></p>
结果应为<verb>
。
lxml和bs4没有处理这种情况,似乎他们将<verb>
作为html标记。它们无法解析尖括号中的文本,只返回空字符串。
那么,任何解决方案? THX!
答案 0 :(得分:1)
这个怎么样?
import re
my_str = "<p><verb></p>"
my_new_string = re.sub('[\<p\>|\<\/p\>]', '', my_str)
print my_new_string
输出:动词