我对编程还很陌生,我需要对以下问题进行技术解释。
首先,虽然我谦虚地了解“ Beautiful Soup”和“ Selenium”这两种方法,但我想从经验丰富的用户那里得到答案,这些答案确实很难从网络或文本中获取。
我可以通过以下方式从网站获取数据:通过硒打开页面,然后获取page.source以通过Beautiful汤解析。美丽的汤本身没有提供页面的html,而是提供了整个网站的源代码,即使链接直接指向该页面,该网站也不包含特定页面的html! / p>
1)有没有一种方法可以使page_source不含硒,而只有美丽的汤呢?
2)我可以在不打开所涉及页面的情况下使用硒吗? (就像有一个等效于.get('http ..')的等效物一样,它不会物理上打开链接!如果处理> 300个链接,我发现这是一场噩梦!!!!)
2)还有另一种更有效的pythonic方法吗?
我当前正在使用的代码:
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
import os
from selenium.webdriver import chrome
driver = webdriver.Chrome(executable_path=r'C:chromedriver.exe')
url= "https.."
driver.get(url)
driver.implicitly_wait(10)
soup = BeautifulSoup(driver.page_source,"lxml")
print(soup.text)
提前谢谢大家。