在python xml元素中处理Unicode

时间:2013-07-29 18:29:05

标签: sql xml xml-parsing hebrew

我有一个带有希伯来语内容的xml文件,其中包含一些属性。 我在python中做:

parser = ET.XMLParser(encoding="utf-8")
tree = ET.parse(fInput,parser)
root = tree.getroot()

从那里我可以遍历len(root)对象,并开始使用.text属性处理它。 但是,对于希伯来文本,我得到了,例如,

>>> elem[0].text
u'\u05ea\u05d5\u05dd'

我希望将此xml转换为SQL插入函数,以便将其插入到我的数据库中。 我怎样才能正确阅读这些属性,以便在手中实际使用希伯来字符串?

1 个答案:

答案 0 :(得分:1)

Unicode字符05ea是Hebrew letter Tav或ת,因此看起来您正在阅读UTF-8编码的希伯来文本。完整的字符串是“תום”。您所要做的就是确保您将其编入的数据库字段配置为UTF-8或UTF-16。