我遇到了BeautifulSoup的编码问题。我正在尝试解析Open Graph标题,但它忽略了非ascii字符。
from bs4 import BeautifulSoup
doc = BeautifulSoup(html,"lxml")
doc.html.head.findAll('meta',attrs={'property':'og:title'})
对于http://mattilintulahti.net/mediablogi/2013/02/11/19-asiaa-joita-et-tieda-mediayhtiosta-nimeltaan-red-bull/,它会为内容打印出以下内容
19 asiaa joita et tied mediayhtist nimeltn Red Bull
正确的
19 asiaa joita et tiedä mediayhtiöstä nimeltään Red Bull
有关如何使utf-8正常工作的任何建议吗?
答案 0 :(得分:1)
我无法重现这个问题:
import urllib2
import bs4 as bs
url = 'http://mattilintulahti.net/mediablogi/2013/02/11/19-asiaa-joita-et-tieda-mediayhtiosta-nimeltaan-red-bull/'
html = urllib2.urlopen(url).read()
doc = bs.BeautifulSoup(html, 'lxml')
for meta in doc.html.head.findAll('meta', attrs={'property': 'og:title'}):
print(meta.attrs['content'])
产量
19 asiaa joita et tiedä mediayhtiöstä nimeltään Red Bull
如果这没有用,请显示您的代码。