美丽的汤引发UnicodeEncodeError“序数不在范围内(128)”

时间:2011-12-25 13:28:04

标签: python unicode beautifulsoup

我正在尝试解析从野外网站下载的任意文件,是的,我无法控制他们的内容。

Beautiful Soup won't choke if you give it bad markup...以来,我想知道为什么有时会给我这些hick-up,文档的 part 格式不正确,以及是否有办法让它恢复到下一个可读文档的一部分,不管这个错误。

发生错误的行是第3行:

from BeautifulSoup  import BeautifulSoup as doc_parser
reader = open(options.input_file, "rb")
doc = doc_parser(reader)

CLI完整输出是:

Traceback (most recent call last):
  File "./grablinks", line 101, in <module>
    sys.exit(main())
  File "./grablinks", line 88, in main
    links = grab_links(options)
  File "./grablinks", line 36, in grab_links
    doc = doc_parser(reader)
  File "/usr/local/lib/python2.7/dist-packages/BeautifulSoup.py", line 1519, in __init__
    BeautifulStoneSoup.__init__(self, *args, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/BeautifulSoup.py", line 1144, in __init__
    self._feed(isHTML=isHTML)
  File "/usr/local/lib/python2.7/dist-packages/BeautifulSoup.py", line 1186, in _feed
    SGMLParser.feed(self, markup)
  File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
    self.goahead(0)
  File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
        k = self.parse_endtag(i)
  File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
    self.finish_endtag(tag)
  File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
    method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 15-16: ordinal not in range(128)

2 个答案:

答案 0 :(得分:2)

是的,如果您的元素具有非ASCII名称(<café>),它会窒息。对于XML来说,这甚至都不是'糟糕的标记'......

这是BeautifulSoup正在使用的sgmllib中的一个错误:它试图找到与标记名称相同的自定义方法,但在Python 2中,方法名称是字节字符串,因此即使查找也是如此带有非ASCII字符的方法将永远不会出现。

你可以通过将{25}和371从except AttributeError:更改为except AttributeError, UnicodeError:来破解对sgmllib的修复,但这不是一个好的修复方法。要么重写方法的其余部分也不容易。

你要解析的是什么? BeautifulStoneSoup总是带来可疑的实用性 - XML没有HTML所做的那些可怕的解析器黑客,所以一般来说,破解的XML不是XML。因此,您通常应该使用普通的旧XML解析器(例如,使用标准DOM或etree)。对于解析常规HTML,html5lib是您最好的选择。

答案 1 :(得分:0)

如果Python 3.0之前的python版本中的输入中存在非ascii字符,则会发生这种情况

如果您尝试在包含char值&gt;的字符的字符串上使用str(...) 128(ANSII&amp; unicode),引发了这个例外。

在这里,可能会发生错误,因为getattr尝试在unicode字符串上使用str - 它“认为”它可以安全地执行此操作,因为在3.0之前的python版本中,标识符不能包含unicode。

检查HTML中的unicode字符。尝试替换/编码这些,如果它仍然不起作用,请告诉我们。