应用错误收集

如何通过python3在网上获取可再生信息？

时间：2018-01-26 04:57:14

标签： python web request

我想在网页上获得一些信息。我使用requests.get来抽象页面。但我找不到我想要的东西。仔细检查，我发现我想要的信息是一个带滚动条的列表。当我向下拖动滚动条时，会加载越来越多的信息。所以我想当我按模块请求获取页面时，列表中的所有信息都没有加载。我想知道这个过程中发生了什么，我怎样才能收集到我想要的信息。（我不熟悉Html语言）。

1 个答案:

答案 0 :(得分：0)

我想知道这个过程中发生了什么

听起来当用户滚动时，滚动会导致执行一些javascript（js），并且js会向服务器重复请求更多数据。不幸的是，请求模块不能导致html页面上的javascript执行 - 你得到的只是js的文本。 无法在html页面上执行javascript以便检索用户实际看到的内容长期以来一直是个问题。幸运的是，聪明的程序员已经基本解决了这个问题。您需要使用其他模块。查看selenium模块。

我不熟悉Html语言

刮刮网页真的很快就会变得非常棘手，而且有些网页主动试图阻止计算机程序抓取他们的内容，所以你需要知道html和js以便弄清楚发生了什么。