我需要使用 windows-1251 字符集解析HTML页面(俄语版)。
问题是它是Web应用程序,我必须使用Python 2.4而没有任何机会在服务器上安装模块。我尝试做的唯一事情是要求管理员安装 lxml 模块但是它没有以正确的方式在2.4上构建并尝试导入 lxml.html 失败
现在我正在尝试在 BeautifulSoup 和 html5lib 模块之间进行选择,但我没有找到使用html5lib的任何简单示例(我只需要提取一些文本从某个 div 元素中删除其中的所有其他标记)。反过来,BeautifulSoup在开始标记中返回错误 '垃圾字符:u'\ u041f \ u0440 \ u043e \ u0434 \ u0430 \ u0436 \ u0430>' 以及任何尝试将源页面从 CP1251 解码为 unicode 或任何其他字符集都没有。
我做错了什么?或者我应该使用什么解析器?
答案 0 :(得分:0)
这个问题对如何转换为UTF-8有很好的答案:
Python: how to convert from Windows 1251 to Unicode?
我喜欢BeautifulSoup库,但我不熟悉奇怪的字符集。如果我正在写这篇文章,我可能只是尝试对输入进行消毒,以便让我进入unicode,大多数图书馆都可以很好地播放。