我需要将xml文件作为字符串读取(而不是解析它)。问题是,它全部都是西里尔字母,而且我没有以良好的方式阅读(或者至少打印)字符串。
我的尝试:
with open (path, "r" ) as myfile:
return myfile.read().replace('\n', '')
with open (path, "r" ) as myfile:
return unicode(myfile.read().replace('\n', ''),encoding='utf8')
两者都有效,并且我已经能够在第一种情况下使用字符串 - 但仍然无法打印它
更新
看起来我指出了这个问题的错误方向:我使用Jupyther笔记本,所以即使使用" ordinal"也是如此。例:
import re
text = '<p id="p755">После Смоленска Наполеон'
m = re.search('(?:<p.*>)(.*)', text)
if m:
found = m.group(1)
found
'\xd0\x9f\xd0\xbe\xd1\x81\xd0\xbb\xd0\xb5 \xd0\xa1\xd0\xbc\xd0\xbe\xd0\xbb\xd0\xb5\xd0\xbd\xd1\x81\xd0\xba\xd0\xb0 \xd0\x9d\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbb\xd0\xb5\xd0\xbe\xd0\xbd'