从页面以及下一页获取URL

时间:2019-11-11 10:08:34

标签: python beautifulsoup urllib2

我正在尝试从页面获取所有url链接。我正在使用此链接

https://www.horizont.net/suche/?OK=suchen&OK=suchen&i_sortfl=pubdate&i_sortd=desc&i_q=der

此链接基于显示不同文章的搜索查询。每页约9条文章。因此,我想从页面中以列表的形式获取所有URL链接。

我要尝试的第二步,当从页面中提取页面中的所有链接时,它将自动打开第二个页面并从那里获取所有链接。

enter image description here

所以,s大约有15194个页面,所以我想从页面中获取文章的所有超链接。

到目前为止,我正在尝试这样做:

from BeautifulSoup import BeautifulSoup
import urllib2
import re

def getLinks(url):
    html_page = urllib2.urlopen(url)
    soup = BeautifulSoup(html_page)
    links = []

    for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
        links.append(link.get('href'))

    return links

print( getLinks("https://www.horizont.net/suche/?OK=suchen&OK=suchen&i_sortfl=pubdate&i_sortd=desc&i_q=der") )

我现在面临的问题是,我从网站上获取每个网址,但我只需要搜索结果以及搜索结果的下一页。

1 个答案:

答案 0 :(得分:1)

您可以使用需要提取href的链接的元素类属性:

for link in soup.findAll ('a', attrs = {'href': re.compile ("^ http: //")}, class _ = "ArticleTeaserSearchResultItem_link"):

如果您要浏览所有页面并收集文章的所有URL,我建议您更改链接本身的Page值,直到该链接有效:

i = 1
urls = []
while True:

    url = f"https://www.horizont.net/suche/?OK=1&i_q=der&i_sortfl=pubdate&i_sortd=desc&currPage={i}"
    try:
        def getLinks(url):
            html_page = urllib2.urlopen(url)
            soup = BeautifulSoup(html_page)
            links = []

            for link in soup.findAll('a', attrs={'href': re.compile("^http://")}, class_="ArticleTeaserSearchResultItem_link"):
                links.append(link.get('href'))

            return links

    urls.append(getLinks(url))

    except:
        break

    i += 1

目前,我没有机会调试我的代码,但希望对您有所帮助。祝你好运!