Python:使用utf-8(西里尔语)作为字符串解析XML

时间:2015-11-25 14:39:07

标签: python xml string utf-8 jupyter

我需要将xml文件作为字符串读取(而不是解析它)。问题是,它全部都是西里尔字母,而且我没有以良好的方式阅读(或者至少打印)字符串。

我的尝试:

with open (path, "r" ) as myfile:
    return myfile.read().replace('\n', '')


with open (path, "r" ) as myfile:
     return unicode(myfile.read().replace('\n', ''),encoding='utf8')

两者都有效,并且我已经能够在第一种情况下使用字符串 - 但仍然无法打印它

更新

看起来我指出了这个问题的错误方向:我使用Jupyther笔记本,所以即使使用" ordinal"也是如此。例:

import re

text = '<p id="p755">После Смоленска Наполеон'

m = re.search('(?:<p.*>)(.*)', text)
if m:
    found = m.group(1)

found
'\xd0\x9f\xd0\xbe\xd1\x81\xd0\xbb\xd0\xb5 \xd0\xa1\xd0\xbc\xd0\xbe\xd0\xbb\xd0\xb5\xd0\xbd\xd1\x81\xd0\xba\xd0\xb0 \xd0\x9d\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbb\xd0\xb5\xd0\xbe\xd0\xbd'

0 个答案:

没有答案