如何在自定义PyYAML构造函数中处理递归?

时间:2015-01-07 18:53:03

标签: constructor pyyaml graph-traversal

PyYAML可以处理常规python对象中的循环图。例如:

代码段#1。

class Node: pass
a = Node()
b = Node()
a.child = b
b.child = a
# We now have the cycle a->b->a
serialized_object  = yaml.dump(a)
object = yaml.load(serialized_object)

这段代码成功了,所以显然有一些机制可以在加载序列化对象时防止无限递归。 当我编写自己的YAML构造函数时,如何利用它?

例如,假设Node是一个包含瞬态字段foobar以及不稳定字段child的类。只有child才能进入yaml文档。我希望这样做:

Snippet#2。

def representer(dumper, node):
  return dumper.represent_mapping("!node", {"child": node.child})

def constructor(loader, data):
  result = Node()
  mapping = loader.construct_mapping(data)
  result.child = mapping["child"]
  return result

yaml.add_representer(Node, representer)
yaml.add_constructor("!node", constructor)

# Retry object cycle a->b->a from earlier code snippet
serialized_object  = yaml.dump(a)
print serialized_object
object = yaml.load(serialized_object)

但它失败了:

&id001 !node
child: !node
  child: *id001

yaml.constructor.ConstructorError: found unconstructable recursive node:
  in "<string>", line 1, column 1:
    &id001 !node

我明白为什么。我的构造函数不是为递归而构建的。它需要在完成构造父对象之前返回子对象,并且当子对象和父对象是同一对象时失败。

但很明显PyYAML有解决这个问题的图遍历,因为Snippet#1有效。也许有一个传递来构建所有对象,第二个传递来填充它们的字段。我的问题是,我的自定义构造函数如何与这些机制联系起来?

这个问题的答案是理想的。但是,如果答案是我无法使用自定义构造函数执行此操作,并且有一个不太理想的替代方法(例如将YAMLObject类混合到我的Node类中),那么答案将是也很感激。

2 个答案:

答案 0 :(得分:9)

对于可能涉及递归(mapping / dict,sequence / list,objects)的复杂类型,构造函数无法一次创建对象。因此,您应该在yield函数中constructor()构造对象,然后更新之后的任何值¹:

def constructor(loader, data):
    result = Node()
    yield result
    mapping = loader.construct_mapping(data)
    result.child = mapping["child"]

摆脱了错误。

¹我不认为这是在任何地方记录的,如果我没有密切关注py/constructor.py,而将PyYAML升级到ruamel.yaml,我就不知道如何做到这一点。典型案例:阅读源Luke

答案 1 :(得分:0)

我对PyYaml的第一印象是它试图保持某种程度的一致接口/行为作为JSON(转储/加载)。

我学习并欣赏JSON功能,因为我很容易将JSON读入动态构造的类型。然而,我对JSON格式本身存在问题,特别是缺乏对多行字符串,注释和可读性的支持。

使用PyYAML我发现将yaml反序列化为类型非常困难。似乎有许多箍要跳过我没有时间/兴趣学习。请考虑以下代码,将JSON反序列化为类型:

with open(file) as filereader: json.load(filereader, object_hook=lambda d: namedtuple('X', d.keys())(*d.values()))

通过使用对象加载钩子,我可以将字典转换为namedtuple。现在pyyaml非常善于将yaml转换为字典。我最终应用了这个hack,我从yamlfile流出 - &gt;字典 - &gt; json string - &gt;对象如下:

json.loads(json.dumps(yaml.load(filereader)), object_hook=lambda d: namedtuple('X', d.keys())(*d.values()))

此单行通过中间json转换将yaml文件读入类型化对象。在我的情况下,这是一个有价值的黑客,因为替代方案要复杂得多。