我的美丽汤得到以下输出。 [在301,944 datasets上搜索\ n]
我只需要提取数字301,944。请指导我如何做到这一点。到目前为止,我的代码
import requests
import re
from bs4 import BeautifulSoup
source = requests.get('https://www.data.gov/').text
soup = BeautifulSoup (source , 'lxml')
#print soup.prettify()
images = soup.find_all('small')
print images
con = images.find_all('a') // I am unable to get anchor tag here. It says anchor tag not present
print con
#for con in images.find_all('a',href=True):
#print con
#content = images.split('metrics')
#print content[1]
#images = soup.find_all('a', {'href':re.compile('\d+')})
#print images
答案 0 :(得分:0)
网站上只有一个<small>
标签。
您的images
变量引用了它。但是您以错误的方式使用它来检索锚标记。
如果您想从a
标记中检索文本,可以通过以下方式获取文本:
soup.find('small')。a.text
其中find
方法返回它在网站上遇到的第一个小元素。如果您使用find_all
,将获得所有small
元素的列表(但这里只有一个小标签)。