如何通过单击按钮

时间:2017-04-17 15:40:42

标签: python parsing

我正在python中编写一个脚本,每天下载一个站点上发布的pdf文件。

我在抓取页面和下载文件方面没有任何问题。 我目前面临的问题是由于网站有更多页面,我知道你在想什么;)但如果网站的结构如下,那就不会有问题了:

page 1 -> www.example.com/page1
page 2 -> www.example.com/page2 ...

但问题是,不幸的是,当我按下页码来改变页面时

pages

网址字段中没有任何内容。

我唯一能找到的是控制台中的这个事件:

console

我需要点击的页面按钮是:

<nav class="text-center">
    <ul class="pagination pagination-sm files_paging"><li><a data-page="1" aria-label="Previous"><span aria-hidden="true">«</span></a></li><li class="active"><a data-page="1">1</a></li><li><a data-page="2">2</a></li><li><a data-page="3">3</a></li><li><a data-page="4">4</a></li><li class="disabled"><a data-page="4"><span aria-hidden="true">...</span></a></li><li><a data-page="9">9</a></li><li><a data-page="2" aria-label="Next"><span aria-hidden="true">»</span></a></li></ul>
</nav>

有没有人有任何想法?

1 个答案:

答案 0 :(得分:0)

我假设所提到的页面使用JavaScript框架来显示内容。您应该尝试以下选项。

  • 猜猜网址的模式。
  • 下载页面的前端部分(HTML和JavaScript文件)并搜索URL生成或检索的位置。
  • 如果您对类似的任务感兴趣,请尝试Selenium或其他类似的基于浏览器的可编程测试工具。