使用importXML()抓取Twitter的问题

时间:2015-09-16 14:55:23

标签: xpath twitter google-sheets

在Google表格中使用importXML抓取Twitter页面的问题。

以下内容在上周工作正常,但现在回复错误"导入的XML内容无法解析。"

网址为https://twitter.com/search?q=anyone%20recommend%20restaurant%20london%20since%3A2015-03-16%20until%3A2015-09-16

和xpath是" // span [@class ='用户名js-action-profile-name']"

1 个答案:

答案 0 :(得分:0)

消息正确,该URL的数据不是有效的XML。例如,行:

<noscript><meta http-equiv="refresh" content="0; URL=https://mobile.twitter.com/i/nojs_router?path=%2Fsearch&amp;q=anyone%20recommend%20restaurant%20london%20since%3A2015-03-16%20until%3A2015-09-16"></noscript>

无效,meta元素未关闭。同样,script元素包含许多保留的未转义字符。

除非您使用某种将HTML转换为DOM树的工具,否则在给定该文档时您无能为力。除了使用像Selenium这样的工具,它可以获得浏览器生成的DOM树。

由于您正在抓取Twitter,因此您可以更好,更轻松地使用Twitter REST API。更容易和更强大。