以下代码对于许多输出来说,异常打印了太多空白。
import bs4
import requests
res = requests.get('https://www.sportsbookreview.com/forum/search.php?do=finduser&userid=126807&contenttype=vBForum_Post&showposts=1')
soup = bs4.BeautifulSoup(res.text, 'lxml')
print(soup)
这是输出中出现格式问题的部分:
Sportsbooks & The Industry Service Plays / " > N e w b i e F o r u m / a > / l i >
Prettify不会更改任何内容。知道为什么会这样吗?
答案 0 :(得分:0)
如果您检查网站的源代码,则会看到它周围有空格(右键单击网页,然后单击“ 显示页面源”)
我运行您的代码,它打印时没有换行符和空格。
您可以做类似的事情
import bs4
import requests
res = requests.get('https://www.sportsbookreview.com/forum/search.php?do=finduser&userid=126807&contenttype=vBForum_Post&showposts=1')
soup = bs4.BeautifulSoup(res.text, 'lxml')
print(soup.prettify())
答案 1 :(得分:0)
尝试一下:
更改为汤= bs4.BeautifulSoup(res.text,'html.parser')而不是'lxml'
import bs4
import requests
res = requests.get('https://www.sportsbookreview.com/forum/search.php?do=finduser&userid=126807&contenttype=vBForum_Post&showposts=1')
soup = bs4.BeautifulSoup(res.text, 'html.parser')
print(soup)