Python 3.5s - 如何用新行分隔已删除的段落文本

时间:2016-01-25 10:19:30

标签: python text newline block spaces

我正在从网站上抓取文本并将其导出到记事本文档中。我试图分开段落,尝试了所有可能的print +'\ n'组合,但没有任何效果。我想知道我做错了什么,因为我只能将一大块文本导入到记事本文档中。我是一个新手,如果你解释我正在做的错误,那将会很棒,而不仅仅是提供一个解决方案。谢谢! PS-另外,我认为在提取操作之后我必须使用“outfile.close()”,但如果我这样做,则脚本不起作用......

from bs4 import BeautifulSoup
import urllib.request, re

req = urllib.request.urlopen('https://en.wikipedia.org/wiki/Gautama_Buddha')
soup = BeautifulSoup(req, 'html.parser')
req.addheaders = [ ('User-agent', 'Mozilla/5.0') ]

title = soup.title.text

body = soup.find_all('p')
outfile = open("wiki_test.txt","wb")
for i in body:
    print(i.text)
    outfile.write(bytes(i.text+'\n'+"###############", 'UTF-8'))

1 个答案:

答案 0 :(得分:0)

了解可读性。对于此代码,请尝试

with open("wiki_test.txt","wb") as outfile:
    for i in body:
        print(i.text + '\n')
        outfile.write(bytes(i.text+'\n'+"###############", 'UTF-8'))