html to text:将标签后的所有内容移至新行

时间:2018-04-27 14:20:21

标签: python html text

我使用beautifulsoup将html转换为文本。一个标签后的所有内容都被移动到一个新行,我不确定为什么?

例如:

  

11月5日,

     

2008

是如何

  

2008年11月5日

已保存。

代码:

soup=BeautifulSoup(download_target.text, 'html.parser')

f_text=soup.get_text()

text_file = open(file_loc+"\\"+url_rename[2]+"\\"+url_rename[3]+"\\"+url_rename[1]+".txt","w")

text_file.write(str(f_text.encode('ascii', errors='ignore')).replace("\\t", "").replace("\\n", "\n\r"))

这是我的第一篇文章。抱歉,我不确定如何正确格式化帖子。

任何想法如何将“2008”放在第一行都会非常感激。

阿希什:

这就是你的意思:

text_file.write(str(f_text.encode('ascii', errors='ignore')).replace("\\t", "").replace("\\n", "\n\r").join(f_text.splitlines()))

如果这是对的,我会收到错误。也许我误解了你的代码?

0 个答案:

没有答案