如何合并具有相同属性的兄弟元素?

时间:2013-01-26 22:33:06

标签: xml haskell hxt

考虑这样的XML输入:

<root>
  <sub>
      <p att1=0 att2=1><i>foo</i></p>
      <p att1=1 att2=1><i>bar</i></p>
      <p att1=0 att2=0><i>baz</i></p>
      <p att1=0 att2=1><i>bazz</i></p>
  </sub>
</root>

应转换为:

<root>
  <sub>
      <p att1=0 att2=1><i>foo</i><i>bazz</i></p>
      <p att1=1 att2=1><i>bar</i></p>
      <p att1=0 att2=0><i>baz</i></p>
  </sub>
</root>

(因为p<i>foo</i>的{​​{1}}个父元素都是兄弟姐妹并具有相同的属性。)

如何使用HXT箭头进行此类转换?

1 个答案:

答案 0 :(得分:1)

好的,有我的尝试:代码首先收集兄弟姐妹的父亲的所有属性列表,然后为所有不同的属性列表进行合并:

{-# LANGUAGE Arrows #-}

module Main
where

import Data.List
import Text.XML.HXT.Core

example="\
\<root>\
\  <sub>\
\      <p att1=\"0\" att2=\"1\"><i>foo</i></p>\
\      <p att1=\"1\" att2=\"1\"><i>bar</i></p>\
\      <p att1=\"0\" att2=\"0\"><i>baz</i></p>\
\      <p att1=\"0\" att2=\"1\"><i>bazz</i></p>\
\  </sub>\
\</root>"

get_attrs name = getChildren >>> hasName name >>> proc x -> do
   a <- listA (((
          getAttrName
          &&& (getChildren >>> getText))  ) <<< getAttrl ) -< x
   returnA -< a


has_attrs atts = proc x -> do
   a <- listA (((
           getAttrName
           &&& (getChildren >>> getText))  ) <<< getAttrl ) -< x
   if (a == atts)
   then returnA -< x
   else none -<< ()

mk_attrs atts = map f atts
  where
    f (n, v) = sqattr n v

mergeSiblings_one inp name att = catA (map constA inp)
    >>> mkelem name
               (mk_attrs att)
               [getChildren
                >>> hasName name  >>> has_attrs att >>> getChildren ]

mergeSiblings_core name = proc x -> do
    a <- listA (get_attrs name >>. (sort.nub) ) -< x
    b <- listA this -< x
    c <- listA (getChildren >>> neg (hasName name)) -< x
    catA ((map (mergeSiblings_one b name) a) ++ (map constA c) ) -<< ()


is_parent_of name = getChildren >>> hasName name

mergeSiblings name = processTopDownUntil (
        is_parent_of name `guards` mergeSiblings_core name
    )

stuff = mergeSiblings "p"


main :: IO ()
main
    = do
      x <- runX ( 
             configSysVars  [withTrace 1]
             >>> readString [withValidate no
                           ,withPreserveComment yes
                           ,withRemoveWS yes
                        ] example
             >>> setTraceLevel 4
             >>> stuff >>> traceTree >>> traceSource
           )
      return ()

示例的输出

<root>
  <p att1="0" att2="0">
    <i>baz</i>
  </p>
  <p att1="0" att2="1">
    <i>foo</i>
    <i>bazz</i>
  </p>
  <p att1="1" att2="1">
    <i>bar</i>
  </p>
</root>

很高兴

上面的版本将合并后的子项放在父节点的新子列表中,并且将不匹配的子项放在前面:一个不错的变体是:将每个合并的子项插入第一个旧兄弟节点的旧位置并且不要不要改变非合并节点的顺序。例如

<other>1</other><p><a/></p><other>2</other><p><b/></p>

转换为

<other>1</other><p><a/><b/></p><other>2</other>

而不是:

<p><a/><b/></p><other>1</other><other>2</other>

声明

由于我是HXT和箭头的新手 - 如果有更简洁/ HXT0idiomatic /优雅答案,我不会感到惊讶。