Question

在Google表格中使用importXML抓取Twitter页面的问题。

以下内容在上周工作正常，但现在回复错误＆＃34;导入的XML内容无法解析。＆＃34;

网址为https://twitter.com/search?q=anyone%20recommend%20restaurant%20london%20since%3A2015-03-16%20until%3A2015-09-16

和xpath是＆＃34; // span [@class =＆＃39;用户名js-action-profile-name＆＃39;]＆＃34;

Answer 1

消息正确，该URL的数据不是有效的XML。例如，行：

<noscript><meta http-equiv="refresh" content="0; URL=https://mobile.twitter.com/i/nojs_router?path=%2Fsearch&amp;q=anyone%20recommend%20restaurant%20london%20since%3A2015-03-16%20until%3A2015-09-16"></noscript>

无效，meta元素未关闭。同样，script元素包含许多保留的未转义字符。

除非您使用某种将HTML转换为DOM树的工具，否则在给定该文档时您无能为力。除了使用像Selenium这样的工具，它可以获得浏览器生成的DOM树。

由于您正在抓取Twitter，因此您可以更好，更轻松地使用Twitter REST API。更容易和更强大。

使用importXML（）抓取Twitter的问题

1 个答案: