Question

我正在尝试使用漂亮的汤从网页上抓取一些数据。

当我尝试将HTML文档转换为beautifulsoup对象时，我遇到了问题。

当我运行代码时

soup = BeautifulSoup(html_doc)

我得到的错误信息是：

SyntaxError: Non-ASCII character '\xa9' in file      C:/Users/mlee/PycharmProjects/BsTest/htmlparse.py on line 683, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

我相信这是因为html中有一些asp.net viewstate对象是base64编码的。

是否有建议的解决方法或我是否必须使用其他工具？

另外，我主要只是想获取javascript生成的文本部分。有没有更好的方法呢？

谢谢！

Answer 1

放置此标题

#!/usr/bin/env python
# -*- coding: utf-8 -*-

在htmlparse.py文件的第一行，确保PyCharm将文件保存为utf-8编码。

这与asp / viewstate无关。你在文件中有utf字符。

我主要只是想获取javascript生成的文本部分。有没有更好的方法呢？

您可能希望使用Selenium webdriver + python绑定来执行任务。另一个选项是PhantomJS

如何使用BeautifulSoup阅读asp.net页面？

1 个答案: