Question

我正在尝试使用Python和BeautifulSoup抓取一个包含测试结果表的网页，目前我不介意它是否只是原始的html / un解析数据。

有一张结果表，所有结果都包含在称为“ test-view-grid-area”的父DIV标签中。

通过检查chrome中的网页，我得到了DIV标签的名称类，并且在查看网页的源时绝对正确，但是当我运行以下代码时，我的结果返回为：

[<div class="test-view-grid-area"></div>]

因此它似乎在查找标签，但未返回其内容？我不确定要返回DIV类的内容该怎么做。

from bs4 import BeautifulSoup
import urllib3
http = urllib3.PoolManager()
url = '[url of server / webpage]')
response = http.request('GET', url, headers=headers)
soup = BeautifulSoup (response.data, 'html.parser')
grid_data = soup.find_all("div", class_="test-view-grid-area")
print(grid_data)

编辑：我已经走得更远了，我现在直接从返回JSON字符串的script标签中得到以下响应：

[<script class="__allSuitesOfSelectedPlan" defer="defer" type="application/json">
{"selectedOutcome":"","selectedTester":{"displayName" <etc>}</script>]

因此，接下来，我试图找出如何做正则表达式来为{}之间的所有内容创建搜索模式，然后针对我的初始数据抓取运行该模式，然后将json字符串加载到对象中。

使用BeautifulSoup抓取时，DIV标签的内容为空

0 个答案: