使用nokogiri从document.xml访问深层嵌套节点

时间:2016-08-28 11:09:04

标签: ruby xml xml-parsing nokogiri docx

我正在使用nokogiri访问docx的文档xml文件。

这是一个例子:

<w:document>
    <w:body>
        <w:p w:rsidR="00454EDC" w:rsidRDefault="00454EDC" w:rsidP="00454EDC">
                <w:drawing>
                    <wp:inline distT="0" distB="0" distL="0" distR="0">
                        <wp:extent cx="1926590" cy="1088571"/>
                        <wp:effectExtent l="0" t="0" r="0" b="0"/>
                        <wp:docPr id="1" name="Picture 1"/>
                        <wp:cNvGraphicFramePr>
                            <a:graphicFrameLocks xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main" noChangeAspect="1"/>
                        </wp:cNvGraphicFramePr>
                        <a:graphic xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main">
                            <a:graphicData uri="http://schemas.openxmlformats.org/drawingml/2006/picture">
                                <pic:pic xmlns:pic="http://schemas.openxmlformats.org/drawingml/2006/picture">
                                    <pic:nvPicPr>
                                        <pic:cNvPr id="0" name="Picture 1"/>
                                        <pic:cNvPicPr>
                                            <a:picLocks noChangeAspect="1" noChangeArrowheads="1"/>
                                        </pic:cNvPicPr>
                                    </pic:nvPicPr>
                                    <pic:blipFill>
                                        <a:blip r:embed="rId5" cstate="print">
                                            <a:extLst>
                                                <a:ext uri="{28A0092B-C50C-407E-A947-70E740481C1C}">
                                                    <a14:useLocalDpi xmlns:a14="http://schemas.microsoft.com/office/drawing/2010/main" val="0"/>
                                                </a:ext>
                                            </a:extLst>
                                        </a:blip>
                                        <a:srcRect/>
                                        <a:stretch>
                                            <a:fillRect/>
                                        </a:stretch>
                                    </pic:blipFill>
                                    <pic:spPr bwMode="auto">
                                        <a:xfrm>
                                            <a:off x="0" y="0"/>
                                            <a:ext cx="1951299" cy="1102532"/>
                                        </a:xfrm>
                                        <a:prstGeom prst="rect">
                                            <a:avLst/>
                                        </a:prstGeom>
                                        <a:noFill/>
                                        <a:ln>
                                            <a:noFill/>
                                        </a:ln>
                                    </pic:spPr>
                                </pic:pic>
                            </a:graphicData>
                        </a:graphic>
                    </wp:inline>
                </w:drawing>
            </w:p>
    </w:body>
</w:document>

现在我想访问所有<w:drawing>代码,我想访问<a:blip>代码并提取r:embed属性的值。

在这种情况下,您可以看到它是rId5

我可以使用<w:drawing>访问xml.xpath('//w:drawing')代码,但当我这样做xml.xpath('//w:drawing').xpath('//a:blip')时,会抛出错误:

Nokogiri::XML::XPath::SyntaxError: Undefined namespace prefix: //a:blip

我做错了什么,有人能指出我正确的方向吗?

2 个答案:

答案 0 :(得分:1)

我想说这是你正在使用的xml解析器中的一个错误:

实际上,错误似乎是名称空间前缀a未定义,但是,它已在<a:graphic xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main">中定义,<a:blip>[OperationContract] [WebInvoke(Method = "POST", ResponseFormat = WebMessageFormat.Json, RequestFormat = WebMessageFormat.Json, BodyStyle = WebMessageBodyStyle.Wrapped, UriTemplate = "CreateTask?t={token}&title={title}&aun={assigneeUsername}&inst={instructions}&tnum={taskNumber}&pr={priority}&ud={userData}")] Stream CreateTask(string token, string title, string assigneeUsername, string instructions, string taskNumber, string priority, string userData); 元素的父级。

See here if you want to know more about xml namespaces

似乎它们是关于nokogiri中名称空间前缀问题的一些其他问题,例如:Undefined namespace prefix in Nokogiri and XPath

答案 1 :(得分:1)

错误告诉您,在您的XPath查询//a:blip中,Nokogiri不知道命名空间a所指的是什么。您需要在查询中指定要定位的命名空间,而不仅仅是前缀。在文档中定义前缀a这一事实并不重要,实际的名称空间URI非常重要。只要名称空间URI匹配,就可以在查询中使用与文档中使用的前缀完全不同的前缀。

您可能想知道查询//w:drawing的工作原理。您没有包含完整的XML,但我怀疑在根节点上定义了w前缀(类似于xmlns:w="http://some.uri.here")。如果您未指定任何名称空间,Nokogiri将自动注册根节点中定义的任何名称空间,以便它们在您的查询中可用。对应于a前缀的命名空间未在根目录中定义,因此它不可用,因此您会收到错误。

要在Nokogiri中指定名称空间,请传递哈希,将前缀(在查询中使用)映射到名称空间URI,映射到xpath方法(或者您查询的方法)重新使用)。由于您提供了自己的命名空间映射,因此您还需要包含从根节点使用的任何命名空间,在这种情况下Nokogiri不包括它们。

在您的情况下,代码看起来像这样:

namespaces = {
  'w' => 'http://some.uri', # whatever the URI is for this namespace
  'a' => 'http://schemas.openxmlformats.org/drawingml/2006/main'
}

# You can combine this to a single query.
# Also note you don’t want a double slash infront of
# the `/a:blip` part, just one.
xml.xpath('//w:drawing/a:blip', namespaces)

有关详细信息,请查看Nokogiri tutorial section on namespaces