使用Google CSE实用程序我制作了一个HTML文件,这是Google搜索的准系统版本(约1/10页面大小),如下所示:
<script>
(function() {
var cx = '011947631902407852034:gq02yx0e1mq';
var gcse = document.createElement('script');
gcse.type = 'text/javascript';
gcse.async = true;
gcse.src = 'https://cse.google.com/cse.js?cx=' + cx;
var s = document.getElementsByTagName('script')[0];
s.parentNode.insertBefore(gcse, s);
})();
</script>
<gcse:searchresults-only></gcse:searchresults-only>
我可以在我的浏览器中打开它,如C:\ Users \ Me \ Documents \ MyWebpage.html?q = MyQuery,它显示如下:
这显然不是HTML文件中的内容,因此我假设它是通过JavaScript生成的。实际上,当我在浏览器中查看页面时,HTML中的HTML比实际文件中的要多得多。如果我使用Inspect Element下载它,选择最顶层的节点,编辑HTML,并复制所有HTML并将其放在一个文件中,则1/10大小注释指的是所有这些的大小。
我的问题是:如何使用Python读取给定查询的所有HTML?