我需要从以下href链接获取艺术和传记
<a class="gr-hyperlink" href="/genres/art">Art</a>,
<a class="gr-hyperlink" href="/genres/biography">Biography</a>,
这是我的代码
import numpy as np
import pandas as pd
from urllib import urlopen
from bs4 import BeautifulSoup
import re
def getHTMLContent(link):
html = urlopen(link)
soup = BeautifulSoup(html, 'html.parser')
return soup
content = getHTMLContent('https://abc')
hyperLinks = content.find_all('a', class_="gr-hyperlink")
hyperLinks
答案 0 :(得分:0)
find_all
元素上运行BeautifulSoup
后,您将获得一个可迭代的ResultSet
元素。ResultSet
中的每个项目都是BeautifulSoup Tag
元素。使用BeautifulSoup的get_text
方法提取Tag
的文本:
content = [link.get_text() for link in hyperLinks]