如何使用lxml或bs在尖括号中获取文本

时间:2017-06-08 08:33:38

标签: python regex beautifulsoup lxml

我想在尖括号中提取文字,如:

<p><verb></p>

结果应为<verb>

lxml和bs4没有处理这种情况,似乎他们将<verb>作为html标记。它们无法解析尖括号中的文本,只返回空字符串。

那么,任何解决方案? THX!

1 个答案:

答案 0 :(得分:1)

这个怎么样?

import re
my_str = "<p><verb></p>"
my_new_string = re.sub('[\<p\>|\<\/p\>]', '', my_str)
print my_new_string

输出:动词