Question

我正在尝试一个网站，我认为这是一个动态网站。 https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/WorkspaceMode?p=0

如果链接需要您再次搜索，这里是我为搜索标准设置的内容：16ED* 然后单击高级过滤选项以选择按文件日期过滤开始：01/01/2016 和按文件日期过滤结束： 01/08/2016。然后点击提交。您将转到我需要从中抓取的网页。

我使用 selenium chrome web driver 来完成这个任务，但是每次当我输入链接时，它会自动向我显示没有输入任何搜索条件的页面。因此，我将驱动程序暂停 60 秒，以便有足够的时间导航到需要抓取的页面。但是由于某种原因，它仍然没有抓取我需要抓取的页面源。

我使用开发者工具来检查源代码，而不仅仅是查看页面源代码。由于使用 Inspect 是查找我需要从中抓取的元素的唯一方法。我想知道有什么方法可以完成这项任务，还是我的代码有问题。

web = 'https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/WorkspaceMode?p=0'
op = webdriver.ChromeOptions()
# op.add_argument('headless')
driver = webdriver.Chrome(options=op, executable_path="/usr/local/bin/chromedriver")
driver.get(web)
time.sleep(60)
plain_text = driver.page_source
soup = BeautifulSoup(plain_text, 'html.parser')

帖子/问题的更新。

网址：https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/Dashboard/29

我需要输入搜索条件的信息才能转到我感兴趣的页面。

这是我为搜索条件设置的内容：16ED*，然后单击高级过滤选项以选择按文件日期过滤开始：01/01/2016 和按文件日期过滤结束：01/08/2016。然后点击提交。您将转到我需要从中抓取的网页。

我的目标是从案例编号、样式/被告、文件日期、类型、状态和案例的相应 URL 中抓取网站。然后将它们存储到数据框中。当我使用开发者工具然后点击 Google Chrome 上的检查时，我可以看到所有信息。因为我知道这是一个动态网站，所以我编写了使用 Selenium 抓取网站的代码。

Selenium Web Driver 没有返回我感兴趣的页面源

0 个答案: