如何通过python3在网上获取可再生信息?

时间:2018-01-26 04:57:14

标签: python web request

我想在网页上获得一些信息。我使用requests.get来抽象页面。但我找不到我想要的东西。仔细检查,我发现我想要的信息是一个带滚动条的列表。当我向下拖动滚动条时,会加载越来越多的信息。所以我想当我按模块请求获取页面时,列表中的所有信息都没有加载。我想知道这个过程中发生了什么,我怎样才能收集到我想要的信息。 (我不熟悉Html语言)。

1 个答案:

答案 0 :(得分:0)

  

我想知道这个过程中发生了什么

听起来当用户滚动时,滚动会导致执行一些javascript(js),并且js会向服务器重复请求更多数据。不幸的是,请求模块不能导致html页面上的javascript执行 - 你得到的只是js的文本。 无法在html页面上执行javascript以便检索用户实际看到的内容长期以来一直是个问题。幸运的是,聪明的程序员已经基本解决了这个问题。您需要使用其他模块。查看selenium模块。

  

我不熟悉Html语言

刮刮网页真的很快就会变得非常棘手,而且有些网页主动试图阻止计算机程序抓取他们的内容,所以你需要知道html和js以便弄清楚发生了什么。