Question

我有一个unicode字符串。在字符串中，我用'＆lt; \ p＆gt;'替换'\ r'字符在字符串中，并将其传递给BeautifulSoup进行解析。

如果我在更换后的字符串后打印，我看到更换正常。但是当我将字符串传递给BeautifulSoup时，它将它视为＆lt;和＆gt;。那是为什么？

我似乎与编码有关，但不确定是什么。

替换字符串

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')

Answer 1

<\p>不是结束标记。斜线是另一种方式：

fileString = fileString.replace('\r', '</p>')

BeautifulSoup治疗'＆lt;' '＆GT;' BeautifulSoup中的html标签

1 个答案: