在Google表格中使用importXML抓取Twitter页面的问题。
以下内容在上周工作正常,但现在回复错误"导入的XML内容无法解析。"
和xpath是" // span [@class ='用户名js-action-profile-name']"
答案 0 :(得分:0)
消息正确,该URL的数据不是有效的XML。例如,行:
<noscript><meta http-equiv="refresh" content="0; URL=https://mobile.twitter.com/i/nojs_router?path=%2Fsearch&q=anyone%20recommend%20restaurant%20london%20since%3A2015-03-16%20until%3A2015-09-16"></noscript>
无效,meta
元素未关闭。同样,script
元素包含许多保留的未转义字符。
除非您使用某种将HTML转换为DOM树的工具,否则在给定该文档时您无能为力。除了使用像Selenium这样的工具,它可以获得浏览器生成的DOM树。
由于您正在抓取Twitter,因此您可以更好,更轻松地使用Twitter REST API。更容易和更强大。