使用Google表格ImportXML中的Xpath查询功能从维基百科中获取数据

时间:2015-03-28 19:22:18

标签: google-sheets xpathquery

用于从维基百科获取数据到Google表格的正确Xpath查询是什么?

以下是我想用以下方法测试的示例:

维基百科页面:http://en.wikipedia.org/wiki/12_Angry_Men_(1957_film)

数据拉动:"运行时间"价值#96; 96分钟"位于右侧的桌子上

方法:使用Google表格导入XML功能

我已经尝试了以下内容,但它返回N / A:

=IMPORTXML("http://en.wikipedia.org/wiki/12_Angry_Men_(1957_film)", "//div[normalize-space() = 'Running time']/following-sibling::td")

谢谢!

1 个答案:

答案 0 :(得分:0)

您的XPath存在一些问题。

following-sibling轴不会对该页面的标记起作用,因为“运行时间”td之后的div是其父th的兄弟。而是将following轴与节点类型选择器一起使用:following::td。但是,仍然会在选定的td之后返回所有div个节点,因此我们还需要一个谓词来仅选择第一个节点:[1]

使用XPath完成功能:

=IMPORTXML("http://en.wikipedia.org/wiki/12_Angry_Men_%281957_film%29", "//div[normalize-space()='Running time']/following::td[1]")