有一个字符串,其中包含许多html标签,如下所示
u'find /home/tiger/workspace -name "[0-9]*"<br />find /home/tiger/workspace -name "[!0-9]*"<br />find /home/tiger/workspace -name "[^0-9]*"<br /><br />\u627e\u51fa\u6240\u6709\u5305\u542b\u6570\u5b57\u7684\u6587\u4ef6\uff0c\u4e0d\u5305\u542b\u6570\u5b57\u7684\u6587\u4ef6\u3002<br />tiger@debian:~$ find /home/tiger -name "*[0-9]*" >kan1<br />tiger@debian:~$ find /home/tiger -name "[0-9]*" >kan2<br />tiger@debian:~$ find /home/tiger -name "*[0-9]" >kan3<br /><br /><br />\u5305\u542b\u6570\u5b57\uff0c\u6570\u5b57\u5f00\u5934\uff0c\u6570\u5b57\u7ed3\u5c3e'
如何在字符串中获取纯文本以删除html标签?
答案 0 :(得分:0)
使用html2text库:
>>> print html2text.html2text(s)
find /home/tiger/workspace _place_holder; -name "[0-9]*"
find /home/tiger/workspace _place_holder; -name "[!0-9]*"
find /home/tiger/workspace _place_holder; -name "[^0-9]*"
找出所有包含数字的文件,不包含数字的文件。
tiger@debian:~$ find /home/tiger _place_holder; -name
"*[0-9]*" _place_holder; >kan1
tiger@debian:~$ find /home/tiger _place_holder; -name
"[0-9]*" _place_holder; >kan2
tiger@debian:~$ find /home/tiger _place_holder; -name
"*[0-9]" _place_holder; >kan3
包含数字,数字开头,数字结尾