我正在使用python来检索HTML源代码,但出现的内容如下所示。这是什么,为什么我没有得到实际的页面源?
B'\ XFF \ XD8 \ XFF \ xe0 \ X00 \ x10JFIF \ X00 \ X01 \ X01 \ X00 \ X00 \ X01 \ X00 \ X01 \ X00 \ X00 \ XFF \ XDB \ x00C
答案 0 :(得分:1)
这是一张图片。特别是一个jpeg。因为它是一个字节流python用b'.............'
打印它
jpeg以\xff\xd8\xff\
答案 1 :(得分:0)
尝试使用BeautifulSoup
这是一个例子 How to correctly parse UTF-8 encoded HTML to Unicode strings with BeautifulSoup?
基本上,您所看到的是需要解码的编码字符。