我一直在研究这个webscraper并遇到了一个小问题。 我得到了以下链接,以便从本网站获取以下报告为活动的链接
https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/NameSearch.aspx?NextName=a&NextLicNum
然后我解析网站上的每个活动链接,使用收集的链接提取数据。
我现在遇到的问题是我无法解析收集的链接。
我可以让它向我展示每个活动链接的整个html页面,但是当我尝试解析时,我会得到奇怪的错误,或者我只是不知道我在做什么。
我主要只需要在我收集的每个链接上显示的文字。
仍然有点知道webscraping,如果有人能帮助我解决这个问题会很高兴。我继续发布下面的代码。
from bs4 import BeautifulSoup
import requests
GREEN_URL ="https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/"
active_website_list = []
def make_soup(url):
r = requests.get(url)
html = BeautifulSoup(r.content)
return html
def get_active_licenses(section_url):
soup = make_soup(section_url)
tbl = soup.find("table", id="ctl00_LeftColumnMiddle_Table1").find_all("tr")
for ele in tbl:
if ele.find('td',{'class': 'Green'}) and hasattr(ele.a, "a"):
Active_websites = (GREEN_URL + ele.a['href'])
active_website_list.append(Active_websites)
return active_website_list
def full_page_content(links):
parsed_list = []
for i in active_website_list:
website = requests.get(i)
html = BeautifulSoup(website.content)
parsed_list.append(html)
return parsed_list
if __name__ == '__main__':
active_license = "https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/NameSearch.aspx?NextName=a&NextLicNum"
main_licenses = get_active_licenses(active_license)
print (full_page_content(active_website_list))