应用错误收集

奇怪的HTML代码看起来像这个b'\ xff \ xd8 \ xff \ xe0

时间：2015-11-05 02:51:50

标签： python html

我正在使用python来检索HTML源代码，但出现的内容如下所示。这是什么，为什么我没有得到实际的页面源？

B'\ XFF \ XD8 \ XFF \ xe0 \ X00 \ x10JFIF \ X00 \ X01 \ X01 \ X00 \ X00 \ X01 \ X00 \ X01 \ X00 \ X00 \ XFF \ XDB \ x00C

2 个答案:

答案 0 :(得分：1)

这是一张图片。特别是一个jpeg。因为它是一个字节流python用b'.............'打印它 jpeg以\xff\xd8\xff\

开头

答案 1 :(得分：0)

尝试使用BeautifulSoup

这是一个例子 How to correctly parse UTF-8 encoded HTML to Unicode strings with BeautifulSoup?

基本上，您所看到的是需要解码的编码字符。