打开网页时,通常在实际文本内容上方的层中会弹出窗口。最突出的弹出窗口是“我们正在使用cookie”消息。
我想获取网页的内容(文本)-不弹出Cookie等。我尝试使用以下代码:
from selenium import webdriver
driver = webdriver.Firefox())
driver.set_page_load_timeout(10)
driver.get("https://www.cookie-checker.com/")
website_text = driver.find_element_by_tag_name("body").text
print(website_text)
但是,这会打印所有显示文本,包括cookie弹出窗口:
本网站使用Cookie,我们使用Cookie来个性化内容和 广告,以提供社交媒体功能并分析我们的流量。我们 还与我们的社交网站分享有关您对我们网站使用情况的信息 媒体,广告和分析合作伙伴,可以将其与 您提供给他们或他们已经提供的其他信息 从您使用他们的服务中收集。您同意我们的cookie 如果您继续使用我们的网站。确定必要的偏好设置...
是否可以在没有这些弹出窗口的情况下获取网页的内容(文本)?
当然,我可以找到弹出元素的特定xpath并删除/忽略它,但是我想要一个适用于 any 网页的解决方案。