我有一个unicode字符串。在字符串中,我用'< \ p>'替换'\ r'字符在字符串中,并将其传递给BeautifulSoup进行解析。
如果我在更换后的字符串后打印,我看到更换正常。 但是当我将字符串传递给BeautifulSoup时,它将它视为<和>。那是为什么?
我似乎与编码有关,但不确定是什么。
替换字符串
fileString.encode('utf-8')
fileString = re.sub('\r', "/<\p>", fileString)
fileString.encode('utf-8')
htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')
答案 0 :(得分:2)
<\p>
不是结束标记。斜线是另一种方式:
fileString = fileString.replace('\r', '</p>')