针对Google表格的IMPORTXML XPath_Query

时间:2018-02-14 19:50:15

标签: xml xpath google-sheets xquery

我使用GoogleSheet的IMPORTXML功能检索一年前的每个日历日期的数据,或者找到数据可用的最接近的一年前的日期。

这是数据样本(full data source is here):

 <entry>
    <id>http://data.treasury.gov/Feed.svc/DailyTreasuryYieldCurveRateData(6794)</id>
    <title type="text"></title>
    <updated>2018-02-06T22:05:38Z</updated>
    <author>
      <name />
    </author>
    <link rel="edit" title="DailyTreasuryYieldCurveRateDatum" href="DailyTreasuryYieldCurveRateData(6794)" />
    <category term="TreasuryDataWarehouseModel.DailyTreasuryYieldCurveRateDatum" scheme="http://schemas.microsoft.com/ado/2007/08/dataservices/scheme" />
    <content type="application/xml">
      <m:properties>
        <d:Id m:type="Edm.Int32">6794</d:Id>
        <d:NEW_DATE m:type="Edm.DateTime">2017-02-24T00:00:00</d:NEW_DATE>
        <d:BC_1MONTH m:type="Edm.Double">0.4</d:BC_1MONTH>
        <d:BC_3MONTH m:type="Edm.Double">0.52</d:BC_3MONTH>
        <d:BC_6MONTH m:type="Edm.Double">0.65</d:BC_6MONTH>
        <d:BC_1YEAR m:type="Edm.Double">0.8</d:BC_1YEAR>
        <d:BC_2YEAR m:type="Edm.Double">1.12</d:BC_2YEAR>
        <d:BC_3YEAR m:type="Edm.Double">1.38</d:BC_3YEAR>
        <d:BC_5YEAR m:type="Edm.Double">1.8</d:BC_5YEAR>
        <d:BC_7YEAR m:type="Edm.Double">2.12</d:BC_7YEAR>
        <d:BC_10YEAR m:type="Edm.Double">2.31</d:BC_10YEAR>
        <d:BC_20YEAR m:type="Edm.Double">2.69</d:BC_20YEAR>
        <d:BC_30YEAR m:type="Edm.Double">2.95</d:BC_30YEAR>
        <d:BC_30YEARDISPLAY m:type="Edm.Double">2.95</d:BC_30YEARDISPLAY>
      </m:properties>
    </content>
  </entry>
  <entry>
    <id>http://data.treasury.gov/Feed.svc/DailyTreasuryYieldCurveRateData(6795)</id>
    <title type="text"></title>
    <updated>2018-02-06T22:05:38Z</updated>
    <author>
      <name />
    </author>
    <link rel="edit" title="DailyTreasuryYieldCurveRateDatum" href="DailyTreasuryYieldCurveRateData(6795)" />
    <category term="TreasuryDataWarehouseModel.DailyTreasuryYieldCurveRateDatum" scheme="http://schemas.microsoft.com/ado/2007/08/dataservices/scheme" />
    <content type="application/xml">
      <m:properties>
        <d:Id m:type="Edm.Int32">6795</d:Id>
        <d:NEW_DATE m:type="Edm.DateTime">2017-02-27T00:00:00</d:NEW_DATE>
        <d:BC_1MONTH m:type="Edm.Double">0.44</d:BC_1MONTH>
        <d:BC_3MONTH m:type="Edm.Double">0.5</d:BC_3MONTH>
        <d:BC_6MONTH m:type="Edm.Double">0.68</d:BC_6MONTH>
        <d:BC_1YEAR m:type="Edm.Double">0.81</d:BC_1YEAR>
        <d:BC_2YEAR m:type="Edm.Double">1.2</d:BC_2YEAR>
        <d:BC_3YEAR m:type="Edm.Double">1.46</d:BC_3YEAR>
        <d:BC_5YEAR m:type="Edm.Double">1.87</d:BC_5YEAR>
        <d:BC_7YEAR m:type="Edm.Double">2.18</d:BC_7YEAR>
        <d:BC_10YEAR m:type="Edm.Double">2.36</d:BC_10YEAR>
        <d:BC_20YEAR m:type="Edm.Double">2.72</d:BC_20YEAR>
        <d:BC_30YEAR m:type="Edm.Double">2.98</d:BC_30YEAR>
        <d:BC_30YEARDISPLAY m:type="Edm.Double">2.98</d:BC_30YEARDISPLAY>
      </m:properties>
    </content>
  </entry>
  <entry>

这是我目前用于检索2017年2月27日数据的XPath查询:

//*[local-name() = 'NEW_DATE'][text() = '2017-02-27T00:00:00']/..

这是显示的结果:

6795    2017-02-27T00:00:00 0.44    0.5 0.68    0.81    1.2 1.46    1.87    2.18    2.36    2.72    2.98    2.98

有办法:

  1. 检索除&#34; d:Id&#34;之外显示的所有数据。元素(&#34; 6795&#34;上面) 和
  2. 如果搜索没有数据的日期(例如2017年 2月25日将导致&#34; #N / A&#34;错误,因为查询将没有为丢失的日期返回任何内容),查询将默认为下一个可用的转发日期(例如2017年2月27日)?
  3. 我避免使用IF功能以减少IMPORTXML次呼叫。

2 个答案:

答案 0 :(得分:2)

这个答案怎么样?

第一个问题

样本:

=TRANSPOSE(IMPORTXML(A1, "//*[local-name() = 'NEW_DATE'][text() = '2017-02-27T00:00:00']/../*[local-name()!='Id']"))
  • &#34; A1&#34;是http://data.treasury.gov/feed.svc/DailyTreasuryYieldCurveRateData?$filter=year(NEW_DATE)%20eq%202017
  • 的网址
  • 对于//*[local-name() = 'NEW_DATE'][text() = '2017-02-27T00:00:00']/..,检索了除<d:Id m:type="Edm.Int32">6795</d:Id>以外的值。
  • 结果是转置的,因为值会输出到行。

结果:

enter image description here

第二个问题

使用=TRANSPOSE(IMPORTXML(A1, "//*[local-name() = 'NEW_DATE'][text() = '2017-02-25T00:00:00']/../*[local-name()!='Id']"))时,会检索#N/A的结果。

如果我误解了你的问题,我很抱歉。

答案 1 :(得分:1)

由于Google表格(GS)似乎只与XPath 1.0兼容(其documentation和产品论坛页面herehere不确认或澄清哪个版本自此日期开始支持),替代方法,如XPath 2.0 IF-THEN-ELSE语句cannot be used。相反,可以使用GS本机函数来过滤所寻求的源XML数据。

问题1

Per @ Tanaike提出的解决方案,检索元素的所有子节点,保存一个,可以使用XPath“not”命令完成,即!,如下面应用于“NEW_DATE”的父元素和遗漏子元素“Id”。 TRANSPOSE用于以柱状形式显示它。 (A1是问题中包含源XML URL的单元格。)

=TRANSPOSE(IMPORTXML(A1, "//*[local-name() = 'NEW_DATE'][text() = '2017-02-25T00:00:00']/../*[local-name()!='Id']"))

问题2

要在一年前搜索特定日期,并且如果缺少该日期的数据,要检索最接近的转发日期,则需要嵌套的GS函数首先使用上面的公式检索“NEW_DATE”数据,然后反向其订单使用SORTMATCH最近的可用日期。然后在反向排序的元素上使用INDEX函数来选择适当的日期。 CONCATENATETEXTTODAY函数仅用于以与XML数据兼容的格式设置年前日期。公式如下。

=TRANSPOSE(IMPORTXML(A1,CONCATENATE("//*[local-name() = 'NEW_DATE'][text() = '",INDEX(SORT(IMPORTXML(A1, "//*[local-name() = 'NEW_DATE']"),1,FALSE),MATCH(CONCATENATE(TEXT(TODAY()-365,"YYYY-MM-DD"),"T00:00:00"),SORT(IMPORTXML(A1, "//*[local-name() = 'NEW_DATE']"),1,FALSE),-1)),"']/../*[local-name()! = 'Id']")))