Question

我的工作是将以下网页上的所有文本复制到Google表格中：

https://www.nytimes.com/interactive/2019/04/18/us/politics/mueller-report-document.html

您可以立即说出，这些文字全部是著名的“穆勒报告”。

起初我以为我会手动复制并粘贴每个段落...但是其中有超过400页的文本，其中可能有成千上万个单词，甚至不是上百万个单词。

因此，我决定进行一些研究，以检索网页上存在的文本并将其带入Google表格中。我发现我必须使用IMPORTXML来完成这项工作。

但是不幸的是，“ XPath”似乎是我无所适从的地方。

我所做的是：

打开网页（在链接上方）
向下滚动至第1卷第1页
找到以“此报告已提交给司法部长...”开头的第一段
右键单击该段落，然后选择“检查”
选择复制-从“检查”窗格中复制XPath

这是复制到剪贴板的内容：

//*[@id="g-page-9"]/div/div[1]/div[2]/div[2]/p[1]/text()

所以我打开一个空的Google表格，选择一个空白单元格，然后输入以下公式：

=IMPORTXML("https://www.nytimes.com/interactive/2019/04/18/us/politics/mueller-report-document.html","//*[@id='g-page-9']/div/div[1]/div[2]/div[2]/p[1]/text()")

现在，上述公式始终返回＃N / A（错误：导入的内容为空）消息。这就是我所困的地方，不知道如何使其工作。

谁能阐明如何使IMPORTXML正确地将文本复制到目标单元格中？

XPath可能有什么问题？

0 个答案: