如何解码样本?

时间:2015-01-07 08:55:56

标签: python python-3.x lxml

请帮助解决问题。

我解析页面:

....
....
<h2>Физико-механические характеристики гранита Камбулатовский</h2> 
<p/>
....
....

python代码:

import lxml.etree
import lxml.html

for elt in doc.xpath('//table[@id="single-stone"]/following-sibling::div/*[position()>3]'):
    # result:
    # b'<h2>&#1060;&#1080;&#1079;&#1080;&#1082;&#1086;-&#1084;&#1077;&#1093;&#1072;&#1085;&#1080;&#1095;&#1077;&#1089;&#1082;&#1080;&#1077; &#1093;&#1072;&#1088;&#1072;&#1082;&#1090;&#1077;&#1088;&#1080;&#1089;&#1090;&#1080;&#1082;&#1080; &#1075;&#1088;&#1072;&#1085;&#1080;&#1090;&#1072; &#1050;&#1072;&#1084;&#1073;&#1091;&#1083;&#1072;&#1090;&#1086;&#1074;&#1089;&#1082;&#1080;&#1081;</h2> '
    # b'<p/>'
    stri = lxml.etree.tostring(elt)
    print(stri)

显示结果:

b'<h2>&#1060;&#1080;&#1079;&#1080;&#1082;&#1086;-&#1084;&#1077;&#1093;&#1072;&#1085;&#1080;&#1095;&#1077;&#1089;&#1082;&#1080;&#1077; &#1093;&#1072;&#1088;&#1072;&#1082;&#1090;&#1077;&#1088;&#1080;&#1089;&#1090;&#1080;&#1082;&#1080; &#1075;&#1088;&#1072;&#1085;&#1080;&#1090;&#1072; &#1050;&#1072;&#1084;&#1073;&#1091;&#1083;&#1072;&#1090;&#1086;&#1074;&#1089;&#1082;&#1080;&#1081;</h2> '
b'<p/>'

但我需要在屏幕上警告他们:

<h2>Физико-механические характеристики гранита Камбулатовский</h2> 
<p/>

0 个答案:

没有答案