网页解析基础

时间:2018-12-18 22:15:55

标签: javascript html parsing

所有人。

我需要解析网页,这是搜索请求的结果。我写Python脚本。因此,我需要伪造搜索按钮单击。所以这是我的问题:

单击按钮后,如何找到运行的脚本? 按钮代码是(如我在Chrome的页面检查中所发现的):

<div class="submit button" data-ember-action="2">Search</div>

我觉得我应该读更多。我将不胜感激要为哪个方向挖东西。

第二个是谁可以获取脚本输出。但是,也许第一个问题的答案就是这两个问题的答案

2 个答案:

答案 0 :(得分:1)

您可以使用Google Chrome浏览器的开发人员工具/检查器设置一个断点,以监听任何点击。设置该断点后,您可以单击Google Chrome浏览器中的按钮,以获取更多见解。

这里是link,可以向您展示如何访问Google Chrome开发者工具/检查器(AKA DevTools)。

打开DevTools后,单击顶部附近的Sources标签,然后展开Event Listener Breakpoints手风琴。接下来,您可以展开Mouse手风琴并通过选中旁边的复选框来激活click事件监听器断点。

之后,您可以返回到网页并单击按钮以停止应用程序的运行。从那里,您可以使用调试器单步执行代码,并查看有关该应用程序的更多信息。

答案 1 :(得分:-1)

您需要为此运行JS,而不仅仅是阅读页面代码。

因此,请使用Spalsh:https://splash.readthedocs.io/en/stable/之类的代码进行JavaScript渲染。然后,您可以像在Chrome中一样检查JS事件。

要获得真正的Chrome检查体验,请使用无头Chrome:https://developers.google.com/web/updates/2017/04/headless-chrome