无法访问HTMLParser中的新变量

时间:2011-01-24 23:52:59

标签: python oop html-parsing

我似乎无法在HTMLParser中添加访问任何新变量。我正在关注我见过here的例子。我在__init__中添加一个变量没有任何错误,但是当我尝试在一个方法中访问它时,我被告知它不存在。

#!/usr/bin/env python
from HTMLParser import HTMLParser
import urllib

class parse(HTMLParser):

    def __init__(self, data):
        HTMLParser.__init__(self)
        self.feed(data)
        self.foo = 'err'

    def handle_starttag(self, tag, attrs):
        print self.foo
        if tag == 'a':
            for attr, value in attrs:
                if attr == 'href':
                    print value[10:]
                    continue

    def handle_data(self, text):
        pass

    def handle_endtag(self, tag):
        pass


page = urllib.urlopen('http://docs.python.org/library/htmlparser.html').read()
p = parse(page)

这是输出:

Traceback (most recent call last):
  File "./doit.py", line 34, in <module>
    p = parse(page)
  File "./doit.py", line 9, in __init__
    self.feed(data)
  File "/usr/lib/python2.6/HTMLParser.py", line 108, in feed
    self.goahead(0)
  File "/usr/lib/python2.6/HTMLParser.py", line 148, in goahead
    k = self.parse_starttag(i)
  File "/usr/lib/python2.6/HTMLParser.py", line 271, in parse_starttag
    self.handle_starttag(tag, attrs)
  File "./doit.py", line 14, in handle_starttag
    print self.foo
AttributeError: parse instance has no attribute 'foo'

感谢您的帮助

2 个答案:

答案 0 :(得分:2)

你只需要交换两行

self.feed(data)
self.foo = 'err'

调用.feed()隐式调用.handle_starttag(),但这是在代码中创建属性之前完成的。

可能更好的想法是不要将数据提供给构造函数,而是明确地调用.feed()

答案 1 :(得分:1)

self.handle_starttag(tag, attrs)

之前在HTMLParser.py中调用了

self.foo = 'err'

已在您的代码中设置。

尝试:

self.foo = 'err'
self.feed(data)