Selenium Web Driver 没有返回我感兴趣的页面源

时间:2021-06-22 19:50:23

标签: python selenium web-scraping beautifulsoup

我正在尝试一个网站,我认为这是一个动态网站。 https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/WorkspaceMode?p=0

如果链接需要您再次搜索,这里是我为搜索标准设置的内容:16ED* 然后单击高级过滤选项以选择按文件日期过滤开始:01/01/2016 和按文件日期过滤结束: 01/08/2016。然后点击提交。您将转到我需要从中抓取的网页。

我使用 selenium chrome web driver 来完成这个任务,但是每次当我输入链接时,它会自动向我显示没有输入任何搜索条件的页面。因此,我将驱动程序暂停 60 秒,以便有足够的时间导航到需要抓取的页面。但是由于某种原因,它仍然没有抓取我需要抓取的页面源。

我使用开发者工具来检查源代码,而不仅仅是查看页面源代码。由于使用 Inspect 是查找我需要从中抓取的元素的唯一方法。我想知道有什么方法可以完成这项任务,还是我的代码有问题。

web = 'https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/WorkspaceMode?p=0'
op = webdriver.ChromeOptions()
# op.add_argument('headless')
driver = webdriver.Chrome(options=op, executable_path="/usr/local/bin/chromedriver")
driver.get(web)
time.sleep(60)
plain_text = driver.page_source
soup = BeautifulSoup(plain_text, 'html.parser')

帖子/问题的更新。

网址:https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/Dashboard/29

我需要输入搜索条件的信息才能转到我感兴趣的页面。

这是我为搜索条件设置的内容:16ED*,然后单击高级过滤选项以选择按文件日期过滤开始:01/01/2016 和按文件日期过滤结束:01/08/2016。然后点击提交。您将转到我需要从中抓取的网页。

我的目标是从案例编号、样式/被告、文件日期、类型、状态和案例的相应 URL 中抓取网站。然后将它们存储到数据框中。当我使用开发者工具然后点击 Google Chrome 上的检查时,我可以看到所有信息。因为我知道这是一个动态网站,所以我编写了使用 Selenium 抓取网站的代码。

0 个答案:

没有答案