Question

我正在尝试解析格式如下的html文件。我在本地存储了一个副本，并编写了一个脚本来解析文件。

ECE 231  <b><u>&amp;</u></b>  Elements of Electrical    (3)|No Comparable Course 
        Engineering                  |                                      
ECE 231L    Elements of Electrical    (1)|                                      
        Engineering Lab              |

一切都运行良好，但我发现我在本地保存的版本与我以编程方式从网站上提取的版本之间存在差异。我发现＆符号并没有像我期望的那样处理：

ECE 231  <B ><U >&</B></U>  Elements of Electrical    (3)|No Comparable Course 
        Engineering                  |                                      
ECE 231L    Elements of Electrical    (1)|                                      
        Engineering Lab              |

这是我用来打开和阅读文件的方法。

import urllib.request
url = "some url"

file = urllib.request.urlopen(url)
contents = file.read()
# contents = file.read().decode('ascii')

f = open('file.html','wb')
f.write( contents )
f.close()

文档中的所有其他和标记保持不变。当我在浏览器中打开文件并再次下载时，它会将html重新格式化为我原先认为需要的格式。

这不是一个主要问题，我只是好奇为什么会出现这种情况。

畸形的＆符号使用urllib

0 个答案: