我使用beautifulsoup将html转换为文本。一个标签后的所有内容都被移动到一个新行,我不确定为什么?
例如:
11月5日,
2008
是如何
2008年11月5日
已保存。
代码:
soup=BeautifulSoup(download_target.text, 'html.parser')
f_text=soup.get_text()
text_file = open(file_loc+"\\"+url_rename[2]+"\\"+url_rename[3]+"\\"+url_rename[1]+".txt","w")
text_file.write(str(f_text.encode('ascii', errors='ignore')).replace("\\t", "").replace("\\n", "\n\r"))
这是我的第一篇文章。抱歉,我不确定如何正确格式化帖子。
任何想法如何将“2008”放在第一行都会非常感激。
阿希什:
这就是你的意思:
text_file.write(str(f_text.encode('ascii', errors='ignore')).replace("\\t", "").replace("\\n", "\n\r").join(f_text.splitlines()))
如果这是对的,我会收到错误。也许我误解了你的代码?