我有以下python代码:
def scrapeSite(urlToCheck):
html = urllib2.urlopen(urlToCheck).read()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
tdtags = soup.findAll('td', { "class" : "c" })
for t in tdtags:
print t.encode('latin1')
这将返回我的html代码:
<td class="c">
<a href="more.asp">FOO</a>
</td>
<td class="c">
<a href="alotmore.asp">BAR</a>
</td>
我想在a-Node(例如FOO或BAR)之间获取文本,这将是t.contents.contents。不幸的是它不那么容易:) 有谁知道如何解决这个问题?
非常感谢,感谢任何帮助!
干杯, 约瑟夫
答案 0 :(得分:3)
在这种情况下,您可以使用t.contents[1].contents[0]
获取FOO和BAR。
问题是内容返回一个包含所有元素的列表(Tags和NavigableStrings),如果你打印内容,你可以看到它像
[u'\n', <a href="more.asp">FOO</a>, u'\n']
因此,要获取实际标记,您需要访问contents[1]
(如果您具有完全相同的内容,这可能会因源HTML而异),找到适当的索引后可以使用contents[0]
之后获取标签内的字符串。
现在,由于这取决于HTML源的确切内容,因此它非常脆弱。更通用且更健壮的解决方案是再次使用find()
通过t.find('a')
找到'a'标记,然后使用内容列表获取其中的值t.find('a').contents[0]
或仅{ {1}}获取整个列表。
答案 1 :(得分:1)
对于您的具体示例,pyparsing的makeHTMLTags可能很有用,因为它们可以容忍HTML标记中的许多HTML变量,但为结果提供了方便的结构:
html = """
<td class="c">
<a href="more.asp">FOO</a>
</td>
<td class="c">
<a href="alotmore.asp">BAR</a>
</td>
<td class="d">
<a href="alotmore.asp">BAZZ</a>
</td>
"""
from pyparsing import *
td,tdEnd = makeHTMLTags("td")
a,aEnd = makeHTMLTags("a")
td.setParseAction(withAttribute(**{"class":"c"}))
pattern = td + a("anchor") + SkipTo(aEnd)("aBody") + aEnd + tdEnd
for t,_,_ in pattern.scanString(html):
print t.aBody, '->', t.anchor.href
打印:
FOO -> more.asp
BAR -> alotmore.asp