Question

我想在https://lecturenotes.in/course/all/btech/electrical-engineering?utm_source=megamenu&utm_medium=web&utm_campaign=course的href中获取文本，其中下面的代码是标记的一部分

<div class="subject-content withripple"><span class="subject-action" data-type="subscribe" data-toggle="tooltip" data-placement="top" title="" data-original-title="Subscribe"></span><div class="clearfix"></div><span class="short-name text-uppercase">C</span><a href="/subject/1/programming-in-c-c" class="d-block"><h4 class="text-truncate text-capitalize mb-0" title="Programming In C">Programming In C</h4><span class="course">Course: B.TECH</span></a><div class="ripple-container"></div></div>

Answer 1

要查找所有href-

soup  = BeautifulSoup(<HTML content>)
attrs = {'class': ''}
a_tags = soup.find_all("a",)
href_links = list(map(lambda x: x["href"],a_tags))

您可以通过获取所需页面的请求来找到 HTML内容。
在 attrs 中提及class_name之类的属性，以告知程序外观。

我想使用python中的网页抓取来提取href标签

1 个答案: