Question

我对编程还很陌生，我需要对以下问题进行技术解释。

首先，虽然我谦虚地了解“ Beautiful Soup”和“ Selenium”这两种方法，但我想从经验丰富的用户那里得到答案，这些答案确实很难从网络或文本中获取。

我可以通过以下方式从网站获取数据：通过硒打开页面，然后获取page.source以通过Beautiful汤解析。美丽的汤本身没有提供页面的html，而是提供了整个网站的源代码，即使链接直接指向该页面，该网站也不包含特定页面的html！ / p>

1）有没有一种方法可以使page_source不含硒，而只有美丽的汤呢？

2）我可以在不打开所涉及页面的情况下使用硒吗？（就像有一个等效于.get（'http ..'）的等效物一样，它不会物理上打开链接！如果处理> 300个链接，我发现这是一场噩梦！！！！）

2）还有另一种更有效的pythonic方法吗？

我当前正在使用的代码：

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
import os
from selenium.webdriver import chrome



driver = webdriver.Chrome(executable_path=r'C:chromedriver.exe')


url= "https.."
driver.get(url) 
driver.implicitly_wait(10)

soup = BeautifulSoup(driver.page_source,"lxml")
print(soup.text)

提前谢谢大家。

美丽的汤还是硒？

0 个答案: