使用Apps脚本来抓取javascript呈现的网页

时间:2018-05-01 23:00:59

标签: javascript google-apps-script web-scraping

我正在努力将脚本放在一起来处理通过Apps脚本抓取javascript呈现的网页。在这里找到了这个How to scrape Javascript rendered websites using Javascript?,但我不知道如何把它放在一起。如加载木偶操纵者。任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:0)

如果您要构建类似抓取JavaScript生成的内容之类的内容,建议您遵守使用条款或尝试查找API。

答案 1 :(得分:0)

您可以尝试抓取最初的HTML,因为实际上抓取呈现的HTML非常困难,因此您必须使用无头浏览器。

有一个库:https://github.com/tautologistics/node-htmlparser,可用于从JavaScript解析HTML,它位于节点中,但是由于它不使用任何依赖项,因此您只需复制并粘贴所需的函数即可。 / p>

恐怕解析它不是一件容易的事。