网络抓取问题

时间:2015-07-30 17:59:30

标签: python-3.x web-scraping beautifulsoup

我一直在研究这个webscraper并遇到了一个小问题。 我得到了以下链接,以便从本网站获取以下报告为活动的链接

https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/NameSearch.aspx?NextName=a&NextLicNum

然后我解析网站上的每个活动链接,使用收集的链接提取数据。

我现在遇到的问题是我无法解析收集的链接。

我可以让它向我展示每个活动链接的整个html页面,但是当我尝试解析时,我会得到奇怪的错误,或者我只是不知道我在做什么。

我主要只需要在我收集的每个链接上显示的文字。

仍然有点知道webscraping,如果有人能帮助我解决这个问题会很高兴。我继续发布下面的代码。

from bs4 import BeautifulSoup
import requests


GREEN_URL ="https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/"

active_website_list = []

def make_soup(url):

    r = requests.get(url)
    html = BeautifulSoup(r.content)
    return html

def get_active_licenses(section_url):

    soup = make_soup(section_url)
    tbl = soup.find("table", id="ctl00_LeftColumnMiddle_Table1").find_all("tr")
    for ele in tbl:
        if ele.find('td',{'class': 'Green'}) and hasattr(ele.a, "a"):
            Active_websites = (GREEN_URL + ele.a['href'])
            active_website_list.append(Active_websites)
    return active_website_list

def full_page_content(links):

    parsed_list = []

    for i in active_website_list:
        website = requests.get(i)
        html = BeautifulSoup(website.content)
        parsed_list.append(html)
    return parsed_list










if __name__ == '__main__':

active_license = "https://www2.cslb.ca.gov/OnlineServices/CheckLicenseII/NameSearch.aspx?NextName=a&NextLicNum"

    main_licenses = get_active_licenses(active_license)

    print (full_page_content(active_website_list))

0 个答案:

没有答案