Question

Hi Guys定义一个函数来获取python中txt文件中链接底部所有分页URL的列表。

这是我需要做的一个例子。

输入链接

http://www.apartmentguide.com/apartments/Alabama/Hartselle/

期望输出

www.apartmentguide.com/apartments/Alabama/Hartselle/?page=2
www.apartmentguide.com/apartments/Alabama/Hartselle/?page=3
www.apartmentguide.com/apartments/Alabama/Hartselle/?page=4
www.apartmentguide.com/apartments/Alabama/Hartselle/?page=5
www.apartmentguide.com/apartments/Alabama/Hartselle/?page=6
www.apartmentguide.com/apartments/Alabama/Hartselle/?page=7
www.apartmentguide.com/apartments/Alabama/Hartselle/?page=8
www.apartmentguide.com/apartments/Alabama/Hartselle/?page=9

所以每个输入网址都有限制。

这是我到目前为止所编写的函数，但它不起作用我也不熟悉Python。

import requests
#from bs4 import BeautifulSoup
from scrapy import Selector as Se
import urllib2


lists = open("C:\Users\Administrator\Desktop\\3.txt","r")
read_list = lists.read()
line = read_list.split("\n")


def get_links(line):
    for each in line:
        r = requests.get(each)
        sel = Se(text=r.text, type="html")
        next_ = sel.xpath('//a[@class="next sprite"]//@href').extract()
        for next_1 in next_:
            next_2 = "http://www.apartmentguide.com"+next_1
            print next_2
        get_links(next_1)

get_links(line)

Answer 1

以下是两种方法。

import mechanize

import requests
from bs4 import BeautifulSoup, SoupStrainer
import urlparse

import pprint

#-- Mechanize --
br = mechanize.Browser()

def get_links_mechanize(root):
    links = []
    br.open(root)

    for link in br.links():
        try:
            if dict(link.attrs)['class'] == 'page':
                links.append(link.absolute_url)
        except:
            pass
    return links


#-- Requests / BeautifulSoup / urlparse --
def get_links_bs(root):
    links = []
    r = requests.get(root)

    for link in BeautifulSoup(r.text, parse_only=SoupStrainer('a')):
        if link.has_attr('href') and link.has_attr('class') and 'page' in link.get('class'):
            links.append(urlparse.urljoin(root, link.get('href')))

    return links


#with open("C:\Users\Administrator\Desktop\\3.txt","r") as f:
#    for root in f:
#        links = get_links(root) 
#        # <Do something with links>
root = 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/'

print "Mech:"
pprint.pprint( get_links_mechanize(root) )
print "Requests/BS4/urlparse:"
pprint.pprint( get_links_bs(root) )

一个人使用mechanize - 它对网址更加智能，但速度要慢得多，而且根据您正在做的其他事情可能会有些过分。

其他人使用requests来获取页面（urllib2就足够了），BeautifulSoup来解析标记，使用urlparse来形成您列出的页面中相对URL的绝对URL。

请注意，这两个函数都返回以下列表：

['http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=2',
 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=3',
 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=4',
 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=5',
 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=2',
 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=3',
 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=4',
 'http://www.apartmentguide.com/apartments/Alabama/Hartselle/?page=5']

有重复。您可以通过更改

来删除重复项

return links

到

return list(set(links))

无论你选择何种方法。

修改

我注意到上述功能仅返回指向第2-5页的链接，您必须浏览这些页面才能看到实际上有10页。

完全不同的方法是刮掉＆＃34; root＆＃34;结果数量页面，然后预测会产生多少页面，然后从中构建链接。

由于每页有20个结果，计算出多少页面很简单，请考虑：

import requests, re, math, pprint def scrape_results(root): links = [] r = requests.get(root) mat = re.search(r'We have (\d+) apartments for rent', r.text) num_results = int(mat.group(1)) # 182 at the moment num_pages = int(math.ceil(num_results/20.0)) # ceil(182/20) => 10 # Construct links for pages 1-10 for i in range(num_pages): links.append("%s?page=%d" % (root, (i+1))) return links pprint.pprint(scrape_results(root))

这将是3中最快的方法，但可能更容易出错。

编辑2 ：

可能是这样的：

import re, math, pprint import requests, urlparse from bs4 import BeautifulSoup, SoupStrainer def get_pages(root): links = [] r = requests.get(root) mat = re.search(r'We have (\d+) apartments for rent', r.text) num_results = int(mat.group(1)) # 182 at the moment num_pages = int(math.ceil(num_results/20.0)) # ceil(182/20) => 10 # Construct links for pages 1-10 for i in range(num_pages): links.append("%s?page=%d" % (root, (i+1))) return links def get_listings(page): links = [] r = requests.get(page) for link in BeautifulSoup(r.text, parse_only=SoupStrainer('a')): if link.has_attr('href') and link.has_attr('data-listingid') and 'name' in link.get('class'): links.append(urlparse.urljoin(root, link.get('href'))) return links root='http://www.apartmentguide.com/apartments/Alabama/Hartselle/' listings = [] for page in get_pages(root): listings += get_listings(page) pprint.pprint(listings) print(len(listings))

Answer 2

Re i不确定，所以尝试了xpath。

links = open("C:\Users\ssamant\Desktop\Anida\Phase_II\Apartmentfinder\\2.txt","r")
read_list = links.read()
line = read_list.split("\n")

for each in line:
    lines = []
    r = requests.get(each)
    sel = Selector(text=r.text,type="html")
    mat = sel.xpath('//h1//strong/text()').extract()
    mat = str(mat)
    mat1 = mat.replace(" apartments for rent']","")
    mat2 = mat1.replace("[u'","")
    mat3 = int(mat2)
    num_pages = int(math.ceil(mat3/20.0))
    for i in range(num_pages):
        lines.append("%s/Page%d" % (each, (i+1)))
    with open('C:\Users\ssamant\Desktop\Anida\Phase_II\Apartmentfinder\\test.csv', 'ab') as f:
        writer = csv.writer(f)
        for val in lines:
            writer.writerow([val])

从python请求中的txt文件中的链接获取所有分页URL的列表

2 个答案: