我想获取网站的INSPECT ELEMENT数据。让我们说Truecaller。这样我就可以获得我搜索过的手机号码的人的姓名。 但每当我制作一个python脚本时,它都会给我一个不包含所需信息的PAGE SOURCE。
请帮助我。我是初学者,请原谅我在问题中的任何错误。
答案 0 :(得分:2)
视图页面源代码将为您提供在页面请求时加载的html(这很可能是您在从python发出请求时获得的。
由于现在很多页面加载了东西并在加载初始html后修改了DOM,因此只需查看初始响应就不会获得所需的大部分信息。 要获取检查元素信息,您需要某种Web浏览器才能实际转到该页面,等待您要加载的信息,然后使用它。但是你仍然希望在python脚本中执行此操作。
输入selenium,这是一个浏览器自动化工具(主要用于测试网页)。您可以创建一个python脚本来打开浏览器页面并执行您为其编写的任何代码(甚至等待一段时间并搜索后加载DOM元素!)。你的脚本仍然会打开一个浏览器(我猜这有点奇怪)。
输入PhantomJS,这是另一个可以使用无头浏览器进行所有Web测试的库,而无需依赖实际的浏览器UI。
只使用硒可以达到你的目标,但是使用phantomjs你可以用更清洁的方式做到这一点!祝你好运。
答案 1 :(得分:0)
检查元素和查看页面源不一样。
查看源会显示该页面的原始HTML源代码。当您从浏览器查看源时,您将获得服务器提供的HTML,而不是在javascript执行此操作之后。
检查器会显示浏览器解释的DOM。这包括例如javascript所做的更改,这些更改无法在HTML源代码中看到。
答案 2 :(得分:0)
您在元素检查器中看到的不再是源代码。 你看到一个javascript操纵版本。
而不是试图自己执行所有脚本,这可能导致多个问题,如跨源安全性等,
在网络标签中搜索实际搜索请求及其参数。 然后从那里请求数据,这就是诀窍。
此外,您似乎需要登录才能搜索您提供的网址,因此您最终需要调整Cookie /会话/标题和内容,就像浏览器的请求一样。
所以我想说的是,如果不在源中,请更好地分析您查找的数据的来源