python - 使用BeautifulSoup和python查找唯一标识符的所有帖子

我想做一些非常简单的事情，基本上是在抓论论坛的论坛题目。我遇到的问题是这些论坛帖子名称是由一个独特的＆＃34; id＆＃34;标签是唯一的。

import requests
from bs4 import BeautifulSoup
threads = requests.get('url', headers=headers)
soup = BeautifulSoup(threads1) 
results = soup.findAll("a", href=True, id=True)

这给我留下了大量未经解析的大量信息。很多。然而，这是我真正想要提取的部分：

<a href="/t2518206" id="thread_title_2518206">
title of thread - bla bla bla</a>

你可以看到的问题是每一个thread_title_000000 之后有一个唯一的数字。所以我不能用class或tag语句来隔离它？我以为我可以制作一个循环，其数字范围可以通过所有的ID＆＃39;有一个独特的数字，但我不知道如何。如果我的目标提取由唯一ID标识，那么持续最小化html代码块会感觉无效。

使用BeautifulSoup和python查找唯一标识符的所有帖子

0 个答案: