Question

我一直在研究这个webscraper并遇到了一个小问题。我得到了以下链接，以便从本网站获取以下报告为活动的链接

https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/NameSearch.aspx?NextName=a&NextLicNum

然后我解析网站上的每个活动链接，使用收集的链接提取数据。

我现在遇到的问题是我无法解析收集的链接。

我可以让它向我展示每个活动链接的整个html页面，但是当我尝试解析时，我会得到奇怪的错误，或者我只是不知道我在做什么。

我主要只需要在我收集的每个链接上显示的文字。

仍然有点知道webscraping，如果有人能帮助我解决这个问题会很高兴。我继续发布下面的代码。

from bs4 import BeautifulSoup
import requests


GREEN_URL ="https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/"

active_website_list = []

def make_soup(url):

    r = requests.get(url)
    html = BeautifulSoup(r.content)
    return html

def get_active_licenses(section_url):

    soup = make_soup(section_url)
    tbl = soup.find("table", id="ctl00_LeftColumnMiddle_Table1").find_all("tr")
    for ele in tbl:
        if ele.find('td',{'class': 'Green'}) and hasattr(ele.a, "a"):
            Active_websites = (GREEN_URL + ele.a['href'])
            active_website_list.append(Active_websites)
    return active_website_list

def full_page_content(links):

    parsed_list = []

    for i in active_website_list:
        website = requests.get(i)
        html = BeautifulSoup(website.content)
        parsed_list.append(html)
    return parsed_list










if __name__ == '__main__':

active_license = "https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/NameSearch.aspx?NextName=a&NextLicNum"

    main_licenses = get_active_licenses(active_license)

    print (full_page_content(active_website_list))

网络抓取问题

0 个答案: