美丽的汤还是硒?

时间:2019-09-24 12:49:49

标签: python-3.x selenium beautifulsoup python-requests

我对编程还很陌生,我需要对以下问题进行技术解释。

首先,虽然我谦虚地了解“ Beautiful Soup”和“ Selenium”这两种方法,但我想从经验丰富的用户那里得到答案,这些答案确实很难从网络或文本中获取。

我可以通过以下方式从网站获取数据:通过硒打开页面,然后获取page.source以通过Beautiful汤解析。美丽的汤本身没有提供页面的html,而是提供了整个网站的源代码,即使链接直接指向该页面,该网站也不包含特定页面的html! / p>

1)有没有一种方法可以使page_source不含硒,而只有美丽的汤呢?

2)我可以在不打开所涉及页面的情况下使用硒吗? (就像有一个等效于.get('http ..')的等效物一样,它不会物理上打开链接!如果处理> 300个链接,我发现这是一场噩梦!!!!)

2)还有另一种更有效的pythonic方法吗?

我当前正在使用的代码:

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
import os
from selenium.webdriver import chrome



driver = webdriver.Chrome(executable_path=r'C:chromedriver.exe')


url= "https.."
driver.get(url) 
driver.implicitly_wait(10)

soup = BeautifulSoup(driver.page_source,"lxml")
print(soup.text) 

提前谢谢大家。

0 个答案:

没有答案