我正在尝试使用Python和BeautifulSoup抓取一个包含测试结果表的网页,目前我不介意它是否只是原始的html / un解析数据。
有一张结果表,所有结果都包含在称为“ test-view-grid-area”的父DIV标签中。
通过检查chrome中的网页,我得到了DIV标签的名称类,并且在查看网页的源时绝对正确,但是当我运行以下代码时,我的结果返回为:
[<div class="test-view-grid-area"></div>]
因此它似乎在查找标签,但未返回其内容?我不确定要返回DIV类的内容该怎么做。
from bs4 import BeautifulSoup
import urllib3
http = urllib3.PoolManager()
url = '[url of server / webpage]')
response = http.request('GET', url, headers=headers)
soup = BeautifulSoup (response.data, 'html.parser')
grid_data = soup.find_all("div", class_="test-view-grid-area")
print(grid_data)
编辑:我已经走得更远了,我现在直接从返回JSON字符串的script标签中得到以下响应:
[<script class="__allSuitesOfSelectedPlan" defer="defer" type="application/json">
{"selectedOutcome":"","selectedTester":{"displayName" <etc>}</script>]
因此,接下来,我试图找出如何做正则表达式来为{}之间的所有内容创建搜索模式,然后针对我的初始数据抓取运行该模式,然后将json字符串加载到对象中。>