我正在尝试使用漂亮的汤从网页上抓取一些数据。
当我尝试将HTML文档转换为beautifulsoup对象时,我遇到了问题。
当我运行代码时
soup = BeautifulSoup(html_doc)
我得到的错误信息是:
SyntaxError: Non-ASCII character '\xa9' in file C:/Users/mlee/PycharmProjects/BsTest/htmlparse.py on line 683, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
我相信这是因为html中有一些asp.net viewstate对象是base64编码的。
是否有建议的解决方法或我是否必须使用其他工具?
另外,我主要只是想获取javascript生成的文本部分。有没有更好的方法呢?
谢谢!
答案 0 :(得分:0)
放置此标题
#!/usr/bin/env python
# -*- coding: utf-8 -*-
在htmlparse.py
文件的第一行,确保PyCharm将文件保存为utf-8编码。
这与asp / viewstate无关。你在文件中有utf字符。
我主要只是想获取javascript生成的文本部分。有没有更好的方法呢?
您可能希望使用Selenium webdriver + python绑定来执行任务。另一个选项是PhantomJS