无法删除python中的href标记

时间:2018-11-10 19:22:55

标签: beautifulsoup

我的美丽汤得到以下输出。 [在301,944 datasets上搜索\ n]

我只需要提取数字301,944。请指导我如何做到这一点。到目前为止,我的代码

import requests
import re
from bs4 import BeautifulSoup
source = requests.get('https://www.data.gov/').text
soup = BeautifulSoup (source , 'lxml')
#print soup.prettify()
images = soup.find_all('small')
print images
con = images.find_all('a') // I am unable to get anchor tag here. It says anchor tag not present
print con
#for con in images.find_all('a',href=True):
    #print con
#content = images.split('metrics')
#print content[1]
#images = soup.find_all('a', {'href':re.compile('\d+')})
#print images

1 个答案:

答案 0 :(得分:0)

网站上只有一个<small>标签。

您的images变量引用了它。但是您以错误的方式使用它来检索锚标记。

如果您想从a标记中检索文本,可以通过以下方式获取文本:

  

soup.find('small')。a.text

其中find方法返回它在网站上遇到的第一个小元素。如果您使用find_all,将获得所有small元素的列表(但这里只有一个小标签)。