我可以使用jsoup来计数在Google上找到的网页中使用的javascript库吗

时间:2018-08-25 14:56:19

标签: javascript java jsoup

我打算分析Google搜索网页中使用的顶级javascript库。

在进行初步分析时,jsoup似乎是连接google并获取搜索结果的不错选择。

最重要的是,我想转到每个搜索结果URL,以获取所使用的javascript库。

jsoup是否支持此功能。或者,对于我的用例,我可以在jsoup顶部使用其他任何库。

注意:我处于分析阶段,还没有开始开发吗?

1 个答案:

答案 0 :(得分:0)

如果要使用Jsoup,则必须确保要解析的页面没有被javascript动态修改。因此,有两件事要考虑:

  • 您是否要在页面源中解析所有链接,并且在页面加载后没有将它们动态添加到DOM中?您可以通过在浏览器和浏览页面中禁用javascript进行测试。 Google在没有javascript的情况下工作,所以这不是问题。
  • 页面源文件中是否所有脚本都已加载,并且页面加载后没有脚本通过javascript添加? 您可以通过使用“查看源代码”选项分析在大多数浏览器中可见的原始页面源并将其结果与使用firebug / inspector所获得的结果进行比较来对其进行检查。

如果要解析许多页面,则结果可能缺少动态加载的库。 Jsoup将发现:

<script src="jquery-3.3.1.min.js"></script>

但是解析起来并不可靠:

<script>
    new Element("script", {src: "jquery-3.3.1.min.js", type: "text/javascript"});
</script>

因为这需要执行javascript。