如何单击页面上的“查看更多”按钮以抓取结果

时间:2019-06-19 16:27:55

标签: python web-scraping

我要按下的按钮看起来像:

<a data-hide="#mvc-paginate-acf46b3a1b68090c" data-append="true" data-container="#posts-container" class="hubmvc-ajax-get mvc-more btn btn-skel-generic" href="https://example.com/linear-box-load-more/?load_more=1&amp;pg=2&amp;limit=36&amp;offset=14&amp;additional_class=gems&amp;ajax_hook=next_page&amp;_wpnonce=8762751649&amp;start_pg=1">View More</a>

在尝试使用BeautifulSoup进行抓取之前,我尝试按了几次。我尝试使用webdriver中的selenium,但显然此答案不再支持它:Scrape page with "load more results" button

1 个答案:

答案 0 :(得分:2)

我查看了Chrome开发者工具中的“网络”标签,发现单击按钮时页面发出了获取请求。以下代码发出get请求,以获取该特定“页面”的文章。在参数中,将pg号更改为所需的任何数字。当我测试它时,这是可行的。唯一的问题可能是,它没有获取所有文章的html,而仅获得该特定页面上的那些文章。如果创建请求会话或遍历所有页面的获取请求,则可能会获取所有页面的html。


import requests

params = {
    'load_more': '1',
    'pg': '2',
    'limit': '36',
    'offset': '14',
    'additional_class': 'gems',
    'ajax_hook': 'next_page',
    '_wpnonce': '8762751649',
    'start_pg': '1',
    'hub_mvc_ajax': '1',
    'mvc_fastload': '3a0a558385',
}
next_url = "https://newsnetwork.mayoclinic.org/linear-box-load-more/"

next_page = requests.get(next_url, params=params)

print(next_page.text)