突破DFDL中的循环

时间:2018-10-23 09:49:34

标签: dfdl

我正在尝试使用DFDL将FLAT文件转换为XML。它具有以下格式: 每个元素是5个字节。所有元素都在同一行中,但我将它们分开以避免混淆。我将在其中以第一个字母表示元素。

0AAAA  
81AAA  
eeeee  
qqqqq    
82BBB    
rrrrr  
sssss  
9QQQQ  

现在0和9是祖父母,我们不必担心它们。 8是父级, 81AAA 的第二个字节(即1)将确定其子级的格式。一个8父级可以有8个孩子,也可以有很多孩子(但它们的格式都相同)。
我尝试了一种模式,但是一旦它进入子级(eeeee),它就不会消失,并且每条记录仅以子级格式打印。

1 个答案:

答案 0 :(得分:0)

以下是我认为可以描述您的数据的架构,该架构已在Daffodil 2.2.0上进行了测试:

<xs:schema
  xmlns:xs="http://www.w3.org/2001/XMLSchema"
  xmlns:fn="http://www.w3.org/2005/xpath-functions"
  xmlns:dfdl="http://www.ogf.org/dfdl/dfdl-1.0/">

  <xs:include schemaLocation="org/apache/daffodil/xsd/DFDLGeneralFormat.dfdl.xsd" />

  <xs:annotation>
    <xs:appinfo source="http://www.ogf.org/dfdl/">
      <dfdl:format ref="GeneralFormat" />
    </xs:appinfo>
  </xs:annotation>

  <xs:element name="Root">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="GrandParent" maxOccurs="unbounded">
          <xs:complexType>
            <xs:choice dfdl:initiatedContent="yes">
              <xs:element name="Zero" dfdl:initiator="0">
                <xs:complexType>
                  <xs:sequence>
                    <xs:element name="Value" type="xs:string" dfdl:length="4" dfdl:lengthKind="explicit" />
                    <xs:element ref="Eight" minOccurs="0" maxOccurs="unbounded" />
                  </xs:sequence>
                </xs:complexType>
              </xs:element>
              <xs:element name="Nine" dfdl:initiator="9">
                <xs:complexType>
                  <xs:sequence>
                    <xs:element name="Value" type="xs:string" dfdl:length="4" dfdl:lengthKind="explicit" />
                    <xs:element ref="Eight" minOccurs="0" maxOccurs="unbounded" />
                  </xs:sequence>
                </xs:complexType>
              </xs:element>
            </xs:choice>
          </xs:complexType>
        </xs:element>
      </xs:sequence>
    </xs:complexType>
  </xs:element>

  <xs:element name="Eight" dfdl:initiator="8">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="ChildrenFormat" type="xs:string" dfdl:length="1" dfdl:lengthKind="explicit" />
        <xs:element name="Value" type="xs:string" dfdl:length="3" dfdl:lengthKind="explicit" />
        <xs:choice dfdl:choiceDispatchKey="{ ./ChildrenFormat }">
          <xs:element ref="One" maxOccurs="unbounded" dfdl:choiceBranchKey="1" />
          <xs:element ref="Two" maxOccurs="unbounded" dfdl:choiceBranchKey="2" />
        </xs:choice>
      </xs:sequence>
    </xs:complexType>
  </xs:element>

  <xs:element name="One" type="xs:string" dfdl:length="5" dfdl:lengthKind="explicit">
    <xs:annotation>
      <xs:appinfo source="http://www.ogf.org/dfdl/">
        <dfdl:discriminator test="{ fn:not(fn:starts-with(., '8') or fn:starts-with(., '9')) }" />
      </xs:appinfo>
    </xs:annotation>
  </xs:element>

  <xs:element name="Two" type="xs:string" dfdl:length="5" dfdl:lengthKind="explicit">
    <xs:annotation>
      <xs:appinfo source="http://www.ogf.org/dfdl/">
        <dfdl:discriminator test="{ fn:not(fn:starts-with(., '8') or fn:starts-with(., '9')) }" />
      </xs:appinfo>
    </xs:annotation>
  </xs:element>

</xs:schema>

其工作原理的说明:

  • 数据的根是无限制的GrandParent元素
  • 每个GrandParent元素都基于发起者包含零或九。启动器消耗祖父母数据的5个字节中的第一个字节
  • 零/九个元素包含一个值,该值消耗了渐变数据的其余4个字节
  • 值等于零或大于八个元素
  • 每个八个元素的启动器为“ 8”,消耗了5个字节中的第一个字节
  • 每个八个元素都有一个ChildrenFormat,消耗了5个字节的第二个
  • 每个八个元素都有一个值,消耗了5个字节的最后3个
  • 每个八个元素具有一个或两个所有元素的无限个数
  • choiceDispatchKey / Branch用于确定是解析所有一个元素还是全部两个元素,并分派ChildrenFormat元素
  • 每个一或两个元素消耗5个字节
  • 为了确定一个或两个元素的无穷大数何时结束,将区分符放在一个/两个元素上。当解析为1/2的数据不是以'8'或'9'开头时,此鉴别器将失败。
  • 此外,为简单起见,所有字段都被视为字符串

这样,您的示例数据将解析为如下所示的信息集:

<Root>
  <GrandParent>
    <Zero>
      <Value>AAAA</Value>
      <Eight>
        <ChildrenFormat>1</ChildrenFormat>
        <Value>AAA</Value>
        <One>eeeee</One>
        <One>qqqqq</One>
      </Eight>
      <Eight>
        <ChildrenFormat>2</ChildrenFormat>
        <Value>BBB</Value>
        <Two>rrrrr</Two>
        <Two>sssss</Two>
      </Eight>
    </Zero>
  </GrandParent>
  <GrandParent>
    <Nine>
      <Value>QQQQ</Value>
    </Nine>
  </GrandParent>
</Root>