如何使用BeautifulSoup阅读asp.net页面?

时间:2015-06-10 15:13:24

标签: python asp.net web web-scraping beautifulsoup

我正在尝试使用漂亮的汤从网页上抓取一些数据。

当我尝试将HTML文档转换为beautifulsoup对象时,我遇到了问题。

当我运行代码时

soup = BeautifulSoup(html_doc)

我得到的错误信息是:

SyntaxError: Non-ASCII character '\xa9' in file      C:/Users/mlee/PycharmProjects/BsTest/htmlparse.py on line 683, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

我相信这是因为html中有一些asp.net viewstate对象是base64编码的。

是否有建议的解决方法或我是否必须使用其他工具?

另外,我主要只是想获取javascript生成的文本部分。有没有更好的方法呢?

谢谢!

1 个答案:

答案 0 :(得分:0)

放置此标题

#!/usr/bin/env python
# -*- coding: utf-8 -*-

htmlparse.py文件的第一行,确保PyCharm将文件保存为utf-8编码。

这与asp / viewstate无关。你在文件中有utf字符。

  

我主要只是想获取javascript生成的文本部分。有没有更好的方法呢?

您可能希望使用Selenium webdriver + python绑定来执行任务。另一个选项是PhantomJS