使用Beautiful Soup + Selenium抓取动态内容时,源数据与实际内容不匹配

时间:2018-01-03 11:19:13

标签: python html selenium web-scraping beautifulsoup

我正在尝试自学如何抓取数据并找到一个很好的动态网站来测试这个(在这种情况下是releases.com)。

由于它是动态的,我想我必须使用selenium来获取它的数据。

但是,检索到的页面源仍然只包含初始html及其js:而不是浏览器中显示的实际元素。

为什么会这样?

我假设它是因为我正在获取页面源,但还有其他选择吗?

我的代码如下所示:

from bs4 import BeautifulSoup as soup
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium import webdriver
import chromedriver_binary
import time

#constants
my_url = "https://www.releases.com/l/Games/2018/1/"


# Start the WebDriver and load the page
wd = webdriver.Chrome()
wd.get(my_url)

# Wait for the elements to appear
time.sleep(10)

# And grab the page HTML source
html_page = wd.page_source
wd.quit()


#Make soup
pageSoup = soup(html_page, "html.parser")

#Get data


print(pageSoup.text)

0 个答案:

没有答案