Question

我正在尝试抓取动态网站，链接如下。 https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/WorkspaceMode?p=0

如果链接需要您再次搜索，这里是我为搜索标准设置的内容：16ED* 然后单击高级过滤选项以选择按文件日期过滤开始：01/01/2016 和按文件日期过滤结束： 01/08/2016。然后点击提交。您将转到我需要从中抓取的网页。

我的目标是从案例编号、样式/被告、文件日期、类型、状态和案例的相应 URL 中抓取网站。然后将它们存储到数据帧中。当我在 Google Chrome 上单击“检查”时，我可以看到所有信息。因为我知道这是一个动态网站，所以我编写了使用 Selenium 抓取网站的代码。

web = 'https://publicrecordsaccess.fultoncountyga.gov/Portal/Home/WorkspaceMode?p=0'

op = webdriver.ChromeOptions()
op.add_argument('headless')
driver = webdriver.Chrome(options=op)
driver.get(web)
time.sleep(10)
plain_text = driver.page_source
soup = BeautifulSoup(plain_text, 'html.parser')

# Records = soup.find_all("tr", {"class":"k-master-row"})

但是由于某种原因，当我运行上面的代码时，汤里没有任何东西，我想知道我做错了什么，我应该如何解决。

非常感谢！

抓取动态网站时返回空列表/输出

0 个答案: