获取Google表格上的网站数据

时间:2017-11-10 10:57:50

标签: xml xpath web-scraping google-sheets spreadsheet

我关注Google云端硬盘帮助论坛,并且有一些非常喜欢的主题,并且想知道是否有新的回复。我不想手动检查每个帖子,我也不想收到电子邮件通知。

我想要的是使用IMPORTXML函数来获取电子表格中的数据。我尝试了许多排列和组合,但我似乎无法让它发挥作用。

这就是我在做什么。示例帖子链接:https://productforums.google.com/forum/#!topic/drive/JNfDAOxo60Y

我右键点击专家名称,去检查并复制出来的Xpath - /html/body/div[5]/div[7]/div[2]/div[2]/div[1]/div[4]/div/div[1]/div[1]/span[2]/div/div[1]/div/div[1]/h3/span

我使用下面提到的公式:

=IMPORTXML("https://productforums.google.com/forum/#!topic/drive/JNfDAOxo60Y","https://productforums.google.com/forum/#!topic/drive/JNfDAOxo60Y")

但我总是得到这个错误 - 无法解析导入的Xml内容。

任何人都可以帮助我吗?我从来没有使用过这个功能,我不知道xml是什么原因让我无法自己解决这个问题。

1 个答案:

答案 0 :(得分:0)

与显示已呈现网页的网络浏览器相比,IMPORTXML能够读取指定网址检索到的源代码。

在这种情况下,专家的姓名不会包含在https://productforums.google.com/forum/#!topic/drive/JNfDAOxo60Y返回的源代码中,而是由browser's rendering engine添加。