Question

我正在研究用漂亮的汤刮网，以从中找回工作。我的代码正在运行，但是当它循环到下一页时，它将覆盖现有的CSV文件。我从其他帖子中看到我需要使用pandas concat吗？但是我似乎无法在我的源代码中使用它或在哪里实现它。任何改进我的代码的建议也将不胜感激。

以下确实刮了1-2页。

from bs4 import BeautifulSoup
import requests, pandas as pd
from urllib.parse import urljoin


print('Getting new jobs...')

main_url = 'https://www.indeed.com/jobs?q=web+developer&l=Sacramento,+CA&sort=date'
start_from = '&start='  


for page in range(1, 3):
    page = (page - 1) * 10
    url = "%s%s%d" % (main_url, start_from, page)  # get full url
    indeed = requests.get(url)
    indeed.raise_for_status()
    soup = BeautifulSoup(indeed.text, 'html.parser')

    home = 'https://www.indeed.com/viewjob?'
    jobsTitle, companiesName, citiesName, jobsSummary, jobsLink = [], [], [], [], []
    target = soup.find_all('div', class_=' row result')

    for div in target:

        if div:
            title = div.find('a', class_='turnstileLink').text.strip()
            jobsTitle.append(title)

            company = div.find('span', class_='company').text.strip()
            companiesName.append(company)

            city = div.find('span', class_='location').text.strip()
            citiesName.append(city)

            summary = div.find('span', class_='summary').text.strip()
            jobsSummary.append(summary)

            job_link = urljoin(home, div.find('a').get('href'))
            jobsLink.append(job_link)


    target2 = soup.find_all('div', class_='lastRow row result')
    for i in target2:
        title2 = i.find('a', class_='turnstileLink').text.strip()
        jobsTitle.append(title2)

        company2 = i.find('span', class_='company').text.strip()
        companiesName.append(company2)

        city2 = i.find('span', class_='location').text.strip()
        citiesName.append(city2)

        summary2 = i.find('span', class_='summary').text.strip()
        jobsSummary.append(summary2)

        jobLink2 = urljoin(home, i.find('a').get('href'))
        jobsLink.append(jobLink2)


    data_record = []
    for title, company, city, summary, link in zip(jobsTitle, companiesName, citiesName, jobsSummary, jobsLink):
        data_record.append({'Job Title': title, 'Company': company, 'City': city, 'Summary': summary, 'Job Link': link})

    df = pd.DataFrame(data_record, columns=['Job Title', 'Company', 'City', 'Summary', 'Job Link'])
df

Answer 1

您可以使用extern type variable建设者来循环创建列表data_record：

DataFrame

可能的data_record = [] for page in range(1, 3): page = (page - 1) * 10 url = "%s%s%d" % (main_url, start_from, page) # get full url indeed = requests.get(url) indeed.raise_for_status() soup = BeautifulSoup(indeed.text, 'html.parser') ... for title, company, city, summary, link in zip(jobsTitle, companiesName, citiesName, jobsSummary, jobsLink): data_record.append({'Job Title': title, 'Company': company, 'City': city, 'Summary': summary, 'Job Link': link}) df = pd.DataFrame(data_record, columns=['Job Title', 'Company', 'City', 'Summary', 'Job Link'])解决方案：

concat

从多个页面Web抓取数据，然后将其附加到csv文件

1 个答案: