应用错误收集

我需要使用 windows-1251 字符集解析HTML页面（俄语版）。

问题是它是Web应用程序，我必须使用Python 2.4而没有任何机会在服务器上安装模块。我尝试做的唯一事情是要求管理员安装 lxml 模块但是它没有以正确的方式在2.4上构建并尝试导入 lxml.html 失败

现在我正在尝试在 BeautifulSoup 和 html5lib 模块之间进行选择，但我没有找到使用html5lib的任何简单示例（我只需要提取一些文本从某个 div 元素中删除其中的所有其他标记）。反过来，BeautifulSoup在开始标记中返回错误 '垃圾字符：u'\ u041f \ u0440 \ u043e \ u0434 \ u0430 \ u0436 \ u0430＆gt;' 以及任何尝试将源页面从 CP1251 解码为 unicode 或任何其他字符集都没有。

我做错了什么？或者我应该使用什么解析器？

选择什么HTML解析器以及为什么BeautifulSoup不起作用？

1 个答案: