我想做一些非常简单的事情,基本上是在抓论论坛的论坛题目。我遇到的问题是这些论坛帖子名称是由一个独特的" id"标签是唯一的。
import requests
from bs4 import BeautifulSoup
threads = requests.get('url', headers=headers)
soup = BeautifulSoup(threads1)
results = soup.findAll("a", href=True, id=True)
这给我留下了大量未经解析的大量信息。很多。 然而,这是我真正想要提取的部分:
<a href="/t2518206" id="thread_title_2518206">
title of thread - bla bla bla</a>
你可以看到的问题是每一个thread_title_000000 之后有一个唯一的数字。所以我不能用class或tag语句来隔离它? 我以为我可以制作一个循环,其数字范围可以通过所有的ID&#39;有一个独特的数字,但我不知道如何。 如果我的目标提取由唯一ID标识,那么持续最小化html代码块会感觉无效。