我正在尝试从NOAA网站上抓取一个非常简单的表格:https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat
该表是一个“ .dat”文件,该站点似乎位于html中。当我使用BeautifulSoup读取内容时,可以看到内容很好。但是,当我用“ find_all”或“ find”搜索该表时,什么也没得到,即[]。
这是我的初始代码:
page = requests.get('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat')
soup = BeautifulSoup(page.content,'html.parser') #'html5lib' #'html.parser' 'lxml'
table = soup.find_all('table')
但是,当我尝试将信息放入表格中时,它变成空白
table
>> []
我尝试了以下变体:
page = urllib.request.urlopen('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat').read()
soup = BeautifulSoup(page,'lxml')
soup = BeautifulSoup(page,'html5lib') #'' #''
table = soup.findAll('table')
table = soup.findAll("div",{"class":"line-gutter-backdrop"})
table = soup.find_all(True)
但是,表格仍然空白。
我发现这个问题似乎很相似:Cannot find table using Python BeautifulSoup
但是我的表不在javascript中(据我所知)。这只是文字。
我对数据抓取非常陌生,真的不知道为什么这个简单的示例不起作用。任何帮助都非常感谢。谢谢。
答案 0 :(得分:2)
您找不到table
标签,因为没有,您必须找到pre
标签。
您可以尝试以下代码段,它将在表格内获取文本:
from bs4 import BeautifulSoup as soup
import urllib
url = 'https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat'
response = urllib.request.urlopen(url)
html = response.read()
page_soup = soup(html,'lxml')
table = page_soup.find('p')
print(table.text)
输出:
STATION STATION_NAME ELEVATION LATITUDE LONGITUDE DATE HPCP Measurement Flag Quality Flag
----------------- -------------------------------------------------- ---------- ---------- ---------- -------------- -------- ---------------- ------------
COOP:310301 ASHEVILLE NC US 682.1 35.5954 -82.5568 20100101 00:00 99999 ]
COOP:310301 ASHEVILLE NC US 682.1 35.5954 -82.5568 20100101 01:00 0 g
COOP:310301 ASHEVILLE NC US 682.1 35.5954 -82.5568 20100102 06:00 1