Question

我需要将xml文件作为字符串读取（而不是解析它）。问题是，它全部都是西里尔字母，而且我没有以良好的方式阅读（或者至少打印）字符串。

我的尝试：

with open (path, "r" ) as myfile:
    return myfile.read().replace('\n', '')


with open (path, "r" ) as myfile:
     return unicode(myfile.read().replace('\n', ''),encoding='utf8')

两者都有效，并且我已经能够在第一种情况下使用字符串 - 但仍然无法打印它

更新

看起来我指出了这个问题的错误方向：我使用Jupyther笔记本，所以即使使用＆＃34; ordinal＆＃34;也是如此。例：

import re

text = '<p id="p755">После Смоленска Наполеон'

m = re.search('(?:<p.*>)(.*)', text)
if m:
    found = m.group(1)

found
'\xd0\x9f\xd0\xbe\xd1\x81\xd0\xbb\xd0\xb5 \xd0\xa1\xd0\xbc\xd0\xbe\xd0\xbb\xd0\xb5\xd0\xbd\xd1\x81\xd0\xba\xd0\xb0 \xd0\x9d\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbb\xd0\xb5\xd0\xbe\xd0\xbd'

Python：使用utf-8（西里尔语）作为字符串解析XML

0 个答案: