我正在尝试使用BeautifulSoup从呈现为HTML的网站上抓取URL并请求库。我都在Python 3.5上运行它们。似乎我已成功从请求中获取HTML,因为当我显示r.content时,会显示我要抓取的网站的完整HTML。但是,当我将其传递给BeautifulSoup时,BeautifulSoup会删除大部分HTML,包括我要抓取的URL。
from bs4 import BeautifulSoup
import requests
page = requests.get('www.example.com')
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.findAll('div'))
我已经尝试使用html5lib,lxml等其他解析器,但未成功。
但是,输出结果并未显示网站HTML代码中的所有“ div”。
这是the link网站。
我想从“ h1.post-title”中抓取网址。