使用BeautifulSoup编码问题

时间:2013-02-14 23:08:53

标签: python beautifulsoup

我遇到了BeautifulSoup的编码问题。我正在尝试解析Open Graph标题,但它忽略了非ascii字符。

from bs4 import BeautifulSoup
doc = BeautifulSoup(html,"lxml")
doc.html.head.findAll('meta',attrs={'property':'og:title'})

对于http://mattilintulahti.net/mediablogi/2013/02/11/19-asiaa-joita-et-tieda-mediayhtiosta-nimeltaan-red-bull/,它会为内容打印出以下内容

19 asiaa joita et tied mediayhtist nimeltn Red Bull

正确的

19 asiaa joita et tiedä mediayhtiöstä nimeltään Red Bull

有关如何使utf-8正常工作的任何建议吗?

1 个答案:

答案 0 :(得分:1)

我无法重现这个问题:

import urllib2
import bs4 as bs
url = 'http://mattilintulahti.net/mediablogi/2013/02/11/19-asiaa-joita-et-tieda-mediayhtiosta-nimeltaan-red-bull/'
html = urllib2.urlopen(url).read()
doc = bs.BeautifulSoup(html, 'lxml')
for meta in doc.html.head.findAll('meta', attrs={'property': 'og:title'}):
    print(meta.attrs['content'])

产量

19 asiaa joita et tiedä mediayhtiöstä nimeltään Red Bull

如果这没有用,请显示您的代码。