当我尝试将所有行写入.txt时,我无法使用w3lib或BeaultifulSoup删除.srt标记-这两个模块中的任何一个都无法删除行尾的某些标记。您能帮我处理正则表达式吗?
ContactInformationType
输入
from w3lib.html import remove_tags
from bs4 import BeautifulSoup
clean = re.compile('<.*?>')
line = re.sub(clean, '', line)
line = remove_tags(line)
输出
<i>Eu sei que era ele!</i>
<i>Pode ser, mas ele não tem sido visto por aqui.</i>
<i>Preciso ser honesto, as coisas não parecem boas.</i>
<i>Às vezes esses casos se arrastam por meses ou anos.</i>