BeautifulSoup治疗'<' '>' BeautifulSoup中的html标签

时间:2012-10-07 03:03:15

标签: python beautifulsoup

我有一个unicode字符串。在字符串中,我用'< \ p>'替换'\ r'字符在字符串中,并将其传递给BeautifulSoup进行解析。

如果我在更换后的字符串后打印,我看到更换正常。 但是当我将字符串传递给BeautifulSoup时,它将它视为<和>。那是为什么?

我似乎与编码有关,但不确定是什么。

替换字符串

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')

1 个答案:

答案 0 :(得分:2)

<\p>不是结束标记。斜线是另一种方式:

fileString = fileString.replace('\r', '</p>')