在python sgmllib </nobr>中处理<nobr>标记

时间:2011-02-18 08:20:27

标签: python html urllib2 sgml

我正在尝试使用我的python脚本解析页面。但是<nobr>标记以及“&amp;”给我带来麻烦。这里是实际的html。

<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>

现在我的解析器handle_data函数(使用sgmllib)无法正确处理数据。这是handle_data代码。

def handle_data(self, data):
        self.datainfo.append(data)

我希望datainfo数组只有一个元素,即“模拟第一和第二路径”

但是,当我打印datainfo数组时,datainfo数组的实际内容是7。

datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']

发生了什么事?

1 个答案:

答案 0 :(得分:0)

您需要对&符号进行编码,例如&amp;以成为有效的HTML。