从网址解析Python HTML

时间:2013-01-16 14:21:28

标签: python html parsing

我听说可以从链接中获取数据。但我想知道最好的方法,我已经读过这个,但我仍然想知道如何以及最好的模块是什么。我想解析一下:

<div class="blalbal"><h2>DATA5</h2>
<div class="blabla">
<table class="tabledata">
<tr><th>Blablabla:</th><td>DATA3<br>(DATA4)</td></tr>
<tr><th>Blablabla:</th><td>DATA2</td></tr>
<tr><th>Blablabla:</th><td>DATA1</td></tr>
</td>

作为字符串,如DATA1,DATA2,DATA3(DATA4),DATA5

所以,我想看看这是怎么可能的(只是一个例子),什么是最好的&amp;最快的方法。谢谢!

1 个答案:

答案 0 :(得分:-1)

来自Python HTMLParser Documentation

from HTMLParser import HTMLParser

# create a subclass and override the handler methods
class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print "Encountered a start tag:", tag
    def handle_endtag(self, tag):
        print "Encountered an end tag :", tag
    def handle_data(self, data):
        print "Encountered some data  :", data

# instantiate the parser and fed it some HTML
parser = MyHTMLParser()
parser.feed('<html><head><title>Test</title></head>'
            '<body><h1>Parse me!</h1></body></html>')

在您的情况下,您可以使用handle_data功能打印HTML内容。