抓取时,我无法访问完整的html正文

时间:2019-05-24 16:34:43

标签: python html web-scraping beautifulsoup

我正在尝试使用python中的BeautifulSoup来吸引西班牙主要报纸的头条新闻。 在不同的站点中进行操作时,我发现了以下常见模式。 当我打印抓取的HTML代码时,它看起来很漂亮,但是在某些时候开始在每个字符之间插入三个空格。所以我不能使用它。

我已经在一些站点(例如https://www.marca.com/)中尝试过,但问题一直在发生。

import requests
from bs4 import BeautifulSoup

source = requests.get("https://www.elmundo.es/").text
soup = BeautifulSoup(source, 'lxml')
soup

我希望看到完整的HTML代码,但它会出现字符之间的空格。

0 个答案:

没有答案