我正在尝试使用我的python脚本解析页面。但是<nobr>
标记以及“&amp;”给我带来麻烦。这里是实际的html。
<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>
现在我的解析器handle_data
函数(使用sgmllib)无法正确处理数据。这是handle_data代码。
def handle_data(self, data):
self.datainfo.append(data)
我希望datainfo数组只有一个元素,即“模拟第一和第二路径”
但是,当我打印datainfo数组时,datainfo数组的实际内容是7。
datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']
发生了什么事?
答案 0 :(得分:0)
您需要对&符号进行编码,例如&
以成为有效的HTML。