如何从BGG - Importxml - google工作表中提取“发布者”数据

时间:2017-06-22 18:47:01

标签: xml xpath web-scraping google-sheets

我试图从一系列游戏中提取出版商信息,但是我已经被拖延了。

我看过的关于importXML的教程或示例都涉及相对简单的拉动,看起来好像它们埋没在网页上的XML代码中,当我尝试跟随它们或根据我的情况调整它们时,我得到#NA错误解析或无内容错误。

例如我试图从URL中提取; https://boardgamegeek.com/boardgame/168435/between-two-cities 我特别需要该页面上列出的出版商

我的进口尝试包括这个;

=IMPORTXML(D2, "//span[4][ng-repeat=]/a/@title=")

以及该xquery的一大堆其他变体。

非常欢迎任何指导或区别。

1 个答案:

答案 0 :(得分:1)

找到它,

必须使用https://www.boardgamegeek.com/xmlapi/boardgame/作为源网址。

特别是我发布的网址答案是; https://www.boardgamegeek.com/xmlapi/boardgame/168435

importxml的语法是; = IMPORTXML(A18,“// boardgames / boardgame / boardgamepublisher”),其中A18是上述网址