我想从“每个页面”获取“每个页面链接”

时间：2019-11-17 23:45:10

标签： python html hyperlink python-requests screen-scraping

我想通过python3从“每个页面”中获取“每个页面链接” 。

在我的代码中，“每个页面”的位置都位于BaseUrl中。而且，每个页面链接都位于我的代码中的正文中。

在哪里

BaseUrl ='https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page='

select body = #listCompany> div> div.section_group> section：nth-child（1）> div> div> dl.content_col2_3.cominfo> dt> a'

plz，检查我的代码。我想收集每个页面上的每个链接，以使链接列表成为linkUrl。有什么问题吗？

from bs4 import BeautifulSoup
import csv
import os
import re
import requests
import json

# jobplanet
BaseUrl = 'https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page='


for i in range(1, 5, 1):
        url = BaseUrl + str(i)
        r = requests.get(url)
        soup = BeautifulSoup(r.text,'lxml')
        body = soup.select('#listCompanies > div > div.section_group > section:nth-child(1) > div > div > dl.content_col2_3.cominfo > dt > a')
        #print(body)

        linkUrl = []
        for item in body:
            link = item.get('href')
            linkUrl.append(link)
print(linkUrl)

0 个答案:

没有答案