无法从行中删除所有标签

时间:2018-12-06 16:06:32

标签: python python-3.x beautifulsoup

当我尝试将所有行写入.txt时,我无法使用w3lib或BeaultifulSoup删除.srt标记-这两个模块中的任何一个都无法删除行尾的某些标记。您能帮我处理正则表达式吗?

ContactInformationType

输入

from w3lib.html import remove_tags
from bs4 import BeautifulSoup  

clean = re.compile('<.*?>')
line = re.sub(clean, '', line)
line = remove_tags(line)

输出

<i>Eu sei que era ele!</i>
<i>Pode ser, mas ele não tem sido visto por aqui.</i>
<i>Preciso ser honesto, as coisas não parecem boas.</i>
<i>Às vezes esses casos se arrastam por meses ou anos.</i>

0 个答案:

没有答案