我正在尝试通过使用漂亮的汤4从html文件中获取简单数据。 但是,当我遇到mthml文件时,我遇到了一个问题。 html解析器在mhtml文件中不起作用。 因此,我需要将mhtml文件转换为简单的html文件。或通过其他方式加载mhtml文件,bcuz的主要目的只是提取一个数据。
有人可以使用python来帮助吗? (我已经知道我可以使用MS Word轻松地转换它,但是我想通过python编程来自动完成此操作)
答案 0 :(得分:-1)
在github上有一个名为MHTifier的仓库,值得一看。代码是用Python2编写的,具有可读性和注释性。尽管这项工作仍在进行中,但仍然可以作为一个很好的起点。