如何使用python HTMLParser提取HTML标记内容

时间:2012-05-07 13:44:38

标签: python html

我正在处理HTML页面,最后得到这样的行:

<td class="border">AAA</td><td class="border">BBB</td>

我需要用HTMLParser将AAA和BBB提取到变量中,我无法弄清楚如何简单地完成它。 我不能使用任何其他解析器,因为我在python工具中受限。 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:4)

这将在TD标签中打印数据:

from HTMLParser import HTMLParser

inTD = False

# create a subclass and override the handler methods
class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        global inTD
        if tag.upper() == "TD":
            inTD = True
    def handle_endtag(self, tag):
        global inTD
        if tag.upper() == "TD":
            inTD = False
    def handle_data(self, data):
        global inTD
        if inTD:
            print data