使用bs4和请求抓取首页

时间:2017-07-06 02:25:16

标签: web-scraping request search-engine python-3.5

我正在尝试从http://startpage.com/中删除搜索结果,我已经使用bs4和请求准备好了所有结果。能够刮掉结果后我遇到了问题。我无法进入搜索结果的下一页。我找不到使用网页浏览开发者工具的链接。当我检查元素时,它显示的是<a href="javascript:;" class="numbers_st" onclick="mysubmit(10); return false;" id="2">2</a> 这就是2号按钮。另一个选项是下一个按钮<a href="javascript:document.nextform.submit();" class="numbers_st" style="width:200px; text-align:left;">Next<span class="i_next"></span></a>我如何提出请求,或者在抓取第一页的结果后我需要做什么才能进入下一页。

import requests
from bs4 import BeautifulSoup
def dork():
    url = 'https://www.startpage.com/do/search?cmd=process_search&query=inurl:admin&language=english_au&cat=web&with_language=&with_region=&pl=&ff=&rl=&abp=-1&with_date=m'
    source_code = requests.get(url, 'html')
    plain_txt = source_code.text
    soup = BeautifulSoup(plain_txt, "lxml")
    for text in soup.find_all('h3', {'class': 'clk'}):
        for link in text.find_all('a'):
            href = link.get('href')
            print(href)
dork()

获取链接的代码。

1 个答案:

答案 0 :(得分:0)

我建议您尝试使用Selenium / PhantomJS,它可以让您拥有一个真实的,无头的和可编写脚本的浏览器。结帐this answer