格式化python数组中的数据

时间:2010-02-17 11:30:45

标签: python

我第一次学习python。 我的目标是从API获取数据并将其输出为xml。

输出存储在一个数组(“projectData”)中,这是输出的一个例子:

[{'code': 'demo',
 'created_at': datetime.datetime(2008, 6, 11, 7, 35, 19, tzinfo=<api.LocalTimezone object at 0x10072ab10>),
 'created_by': None,
 'id': 4,
 'image': 'https://website.com/files/0000/0000/blah.jpg',
 'name': 'Demo Project',
 'description': 'This is for demonstration purposes',
 'due': '2009-05-30',
 'start': '2009-05-06',
 'status': 'Active',
 'stype': 'Demo',
 'tag_list': [],
 'type': 'Project',
 'updated_at': datetime.datetime(2009, 5, 27, 1, 41, 55, tzinfo=<api.LocalTimezone object at 0x10072ab10>),
 'updated_by': {'id': 24, 'name': 'Test', 'type': 'HumanUser'},
 'users': [{'id': 19, 'name': 'User 1', 'type': 'HumanUser'},
           {'id': 18, 'name': 'User 2', 'type': 'HumanUser'},
           {'id': 17, 'name': 'User 3', 'type': 'HumanUser'},
           {'id': 16, 'name': 'User 4', 'type': 'HumanUser'},
           {'id': 15, 'name': 'User 5', 'type': 'HumanUser'},
           {'id': 14, 'name': 'User 6', 'type': 'HumanUser'},
           {'id': 13, 'name': 'User 7', 'type': 'HumanUser'},
           {'id': 12, 'name': 'User 8', 'type': 'HumanUser'},
           {'id': 20, 'name': 'Client 1', 'type': 'HumanUser'}]},

(等)

我编写了一些代码,将其输出为xml,如下所示:

for _project in projectData:
  print "<Project>"
  for key in _project:
    value = _project[key]
    print "\t<" + str(key) + ">" + str(value) + "</" + str(key) + ">"
  print("</Project>\n")

这实际上给了我一个适合我的结果。

然而,因为我是新手,我怀疑这不是一种非常有效的方法,并且可能容易受到各种各样的错误的影响,我希望有更多知识渊博的人可以为我提供一些指示。我想要尝试的另一件事是使其递归,以便“updated_by”元素例如返回其自己的xml

感谢。

3 个答案:

答案 0 :(得分:2)

考虑使用genshietree之类的内容,而不是手工构建XML。

答案 1 :(得分:2)

以下是使用lxml.etree的示例,不完整..可能有点天真。实际上你应该定义一个模式并确保你的输出与它一致。

编辑,说它不完整,添加了无类型,并假设created_by就像填充时的updated_by

import datetime

projects = [{'code': 'demo',
 'created_at': datetime.datetime(2008, 6, 11, 7, 35, 19),
 'created_by': None,
 'id': 4,
 'image': 'https://website.com/files/0000/0000/blah.jpg',
 'name': 'Demo Project',
 'description': 'This is for demonstration purposes',
 'due': '2009-05-30',
 'start': '2009-05-06',
 'status': 'Active',
 'stype': 'Demo',
 'tag_list': [],
 'type': 'Project',
 'updated_at': datetime.datetime(2009, 5, 27, 1, 41, 55),
 'updated_by': {'id': 24, 'name': 'Test', 'type': 'HumanUser'},
 'users': [{'id': 19, 'name': 'User 1', 'type': 'HumanUser'},
           {'id': 18, 'name': 'User 2', 'type': 'HumanUser'},
           {'id': 17, 'name': 'User 3', 'type': 'HumanUser'},
           {'id': 16, 'name': 'User 4', 'type': 'HumanUser'},
           {'id': 15, 'name': 'User 5', 'type': 'HumanUser'},
           {'id': 14, 'name': 'User 6', 'type': 'HumanUser'},
           {'id': 13, 'name': 'User 7', 'type': 'HumanUser'},
           {'id': 12, 'name': 'User 8', 'type': 'HumanUser'},
           {'id': 20, 'name': 'Client 1', 'type': 'HumanUser'}]},
 ]

from lxml import etree

def E(tag, parent=None, content=None, children=None, **kw):
  e = etree.Element(tag)
  if not content is None:
    e.text = str(content)
  for k,v in kw.items():
    e.set(k, str(v))
  if not parent is None:
    parent.append(e)
  if not children is None:
    for c in children:
      e.append(c)
  return e

def processProject(data):
  attrs = ('name','type','id')
  p = E('Project')
  for item in attrs:
    p.set(item,str(data[item]))
  for k,v in [ x for x in data.items() if x[0] not in attrs ]:
    if v is None:
      E(k,parent=p)
    elif isinstance(v,basestring):
      E(k,content=v,parent=p)
    elif isinstance(v,(float,long,int)):
      E(k,content=str(v),parent=p)
    elif isinstance(v,datetime.datetime):
      E(k,content=v.strftime('%Y-%m-%d %H%M'),parent=p)
    elif k == 'users':
      users = E(k,parent=p)
      for u in v:
        E('user',parent=users,**dict([ (x,str(y)) for (x,y) in u.items()]))
    elif k in ('updated_by','created_by'):
      E(k,parent=p,**dict([ (x,str(y)) for (x,y) in v.items()]))
    elif k == 'tag_list':
      taglist = E(k,parent=p)
      for t in v:
        E('tag',parent=taglist,content=t)
  return p

>>> projxml = processProject(projects[0])
>>> etree.dump(projxml)
<Project name="Demo Project" type="Project" id="4">
  <status>Active</status>
  <code>demo</code>
  <created_at>2008-06-11 0735</created_at>
  <due>2009-05-30</due>
  <created_by/>
  <updated_at>2009-05-27 0141</updated_at>
  <start>2009-05-06</start>
  <image>https://website.com/files/0000/0000/blah.jpg</image>
  <updated_by type="HumanUser" id="24" name="Test"/>
  <users>
    <user type="HumanUser" id="19" name="User 1"/>
    <user type="HumanUser" id="18" name="User 2"/>
    <user type="HumanUser" id="17" name="User 3"/>
    <user type="HumanUser" id="16" name="User 4"/>
    <user type="HumanUser" id="15" name="User 5"/>
    <user type="HumanUser" id="14" name="User 6"/>
    <user type="HumanUser" id="13" name="User 7"/>
    <user type="HumanUser" id="12" name="User 8"/>
    <user type="HumanUser" id="20" name="Client 1"/>
  </users>
  <tag_list/>
  <stype>Demo</stype>
  <description>This is for demonstration purposes</description>
</Project>

答案 2 :(得分:0)

考虑使用某种模板工具(甚至是string.Template)而不是大量的字符串操作。

例如,使用愚蠢的内置模板类,通用字典到标签非常简单。

import string
tag= string.Template( "<$tag>$value</$tag>" )
for k,v in someProjectDictionary:
    print tag.substitute( key=k, value=v )

但是,毕业到JinjaMako会使这更加简单,因为整个XML文档在模板语言中变得简单迭代。

{% for p in project_data %}
<project>
    {% for k in p %}
    <{{k}}>{{p[k]}}</{{k}}>
    {% endfor %}
</project>
{% endfor %}        

您可以为此创建单独的文件,并使用Jinja处理从您的数据中替换到您的XML模板。

from jinja2 import Environment, PackageLoader
env = Environment(loader=PackageLoader('yourapplication', 'templates'))
template = env.get_template('mytemplate.html')
print template.render(project_data=the_project_data_list)