Python:打印TD标签外的特定文本行

时间:2013-05-27 21:14:55

标签: python parsing iteration beautifulsoup

我确信这很容易。我正在解析一个网站,我试图获取标签之间的特定文本。文本将== [已撤销,活动,默认]我正在使用Python。我已经能够打印出所有内部文本结果,但我无法在网络上找到特定文本的好解决方案。这是我的代码

from BeautifulSoup import BeautifulSoup
import urllib2
import re

url = urllib2.urlopen("Some URL")
content = url.read()
soup = BeautifulSoup(content)
for tag in soup.findAll(re.compile("^a")):

print(tag.text)

2 个答案:

答案 0 :(得分:1)

我仍然不确定我明白你要做什么,但我会尽力帮助。

soup.find_all('a', text=['revoked', 'active', 'default'])

这将仅选择那些具有给定字符串之一的<a …>标记作为其文本。

答案 1 :(得分:0)

我在类似的场合使用过下面的代码片段。看看这是否符合您的目标:

table = soup.find(id="Table3")

for i in table.stripped_strings:
    print(i)