Question

我有以下python代码：

def scrapeSite(urlToCheck):
    html = urllib2.urlopen(urlToCheck).read()
    from BeautifulSoup import BeautifulSoup
    soup = BeautifulSoup(html)
    tdtags = soup.findAll('td', { "class" : "c" })
    for t in tdtags:
            print t.encode('latin1')

这将返回我的html代码：

<td class="c">
<a href="more.asp">FOO</a>
</td>
<td class="c">
<a href="alotmore.asp">BAR</a>
</td>

我想在a-Node（例如FOO或BAR）之间获取文本，这将是t.contents.contents。不幸的是它不那么容易:) 有谁知道如何解决这个问题？

非常感谢，感谢任何帮助！

干杯，约瑟夫

Answer 1

在这种情况下，您可以使用t.contents[1].contents[0]获取FOO和BAR。

问题是内容返回一个包含所有元素的列表（Tags和NavigableStrings），如果你打印内容，你可以看到它像

[u'\n', <a href="more.asp">FOO</a>, u'\n']

因此，要获取实际标记，您需要访问contents[1]（如果您具有完全相同的内容，这可能会因源HTML而异），找到适当的索引后可以使用contents[0]之后获取标签内的字符串。

现在，由于这取决于HTML源的确切内容，因此它非常脆弱。更通用且更健壮的解决方案是再次使用find()通过t.find('a')找到'a'标记，然后使用内容列表获取其中的值t.find('a').contents[0]或仅{ {1}}获取整个列表。

Answer 2

对于您的具体示例，pyparsing的makeHTMLTags可能很有用，因为它们可以容忍HTML标记中的许多HTML变量，但为结果提供了方便的结构：

html = """
<td class="c"> 
<a href="more.asp">FOO</a> 
</td> 
<td class="c"> 
<a href="alotmore.asp">BAR</a> 
</td> 
<td class="d"> 
<a href="alotmore.asp">BAZZ</a> 
</td> 
"""

from pyparsing import *

td,tdEnd = makeHTMLTags("td")
a,aEnd = makeHTMLTags("a")
td.setParseAction(withAttribute(**{"class":"c"}))

pattern = td + a("anchor") + SkipTo(aEnd)("aBody") + aEnd + tdEnd

for t,_,_ in pattern.scanString(html):
    print t.aBody, '->', t.anchor.href

打印：

FOO -> more.asp
BAR -> alotmore.asp

美丽的汤：获取子节点的内容

2 个答案: