我是python中的beautifulsoup的新手,我试图从网站中提取某些信息。深层链接,标题和价格。
工作正常,我还设法删除了重复项。
但我遇到的问题是我有一个未声明的变量,我想将其更改为已定义/声明的变量。说实话,我不知道怎么做。
以下示例:
already_printed = set()
while page <= max_pages:
page += 1
response = urllib.request.urlopen("http://www.jser.com/s/search.json?q=" + str(Region)
jsondata = json.loads(response.read().decode("utf-8"))
format = (jsondata['activities'])
g_data = format.strip("'<>()[]\"` ").replace('\'', '\"')
soup = BeautifulSoup(g_data)
#print(soup)
hallo = soup.find_all("article", {"class": "activity-card activity-card-horizontal "})
for item in hallo:
headers = item.find_all("h3", {"class": "activity-card"})
for header in headers:
header_final = header.text.strip()
if header_final not in already_printed:
already_printed.add(header_final)
据我所知,我已从头元素中删除了重复项,但创建了一个未声明的变量。
我试图创建一个变量:
Test = already_printed.add(header_final)
但显然它不起作用。谁能帮我吗?我该如何处理这个问题?有什么反馈意见吗?
修改
我得到以下回复:
None
None
None
None
None
我的目标是将输出(标题,价格和深度链接)存储在MySQL数据库中。但是如果没有变量,它就无法将其传输到数据库中。因此,我问如何从未声明的变量中定义变量