Python:使用bs4解析UNICODE字符

时间:2016-01-05 10:50:34

标签: python unicode beautifulsoup

我正在使用bs4构建一个python3网络爬虫/刮刀。只要遇到像中文符号这样的UNICODE代码字符,程序就会崩溃。如何修改我的刮刀以使其支持UNICODE?

以下是代码:

import urllib.request
from bs4 import BeautifulSoup

def crawlForData(url):
        r = urllib.request.urlopen(url)
        soup = BeautifulSoup(r.read(),'html.parser')
        result = [i.text.replace('\n', ' ').strip() for i in soup.find_all('p')]
        for p in result:
                print(p)

url = 'https://en.wikipedia.org/wiki/Adivasi'
crawlForData(url)

1 个答案:

答案 0 :(得分:1)

您可以尝试使用asdf方法。它解码unicode字符串。

或者要走的路是

unicode()

其中content.decode('utf-8','ignore') 是您的字符串

完整的解决方案可能是:

content