Question

我正在尝试从NOAA网站上抓取一个非常简单的表格：https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat

该表是一个“ .dat”文件，该站点似乎位于html中。当我使用BeautifulSoup读取内容时，可以看到内容很好。但是，当我用“ find_all”或“ find”搜索该表时，什么也没得到，即[]。

这是我的初始代码：

page = requests.get('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat')
soup = BeautifulSoup(page.content,'html.parser') #'html5lib' #'html.parser' 'lxml'
table = soup.find_all('table')

当我键入汤时，得到以下信息：

但是，当我尝试将信息放入表格中时，它变成空白

table
>> []

我尝试了以下变体：

page = urllib.request.urlopen('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat').read()

soup = BeautifulSoup(page,'lxml')
soup = BeautifulSoup(page,'html5lib') #'' #''

table = soup.findAll('table') 
table = soup.findAll("div",{"class":"line-gutter-backdrop"}) 
table = soup.find_all(True)

但是，表格仍然空白。

我发现这个问题似乎很相似：Cannot find table using Python BeautifulSoup

但是我的表不在javascript中（据我所知）。这只是文字。

我对数据抓取非常陌生，真的不知道为什么这个简单的示例不起作用。任何帮助都非常感谢。谢谢。

Answer 1

您找不到table标签，因为没有，您必须找到pre标签。

您可以尝试以下代码段，它将在表格内获取文本：

from bs4 import BeautifulSoup as soup
import urllib

url = 'https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat'

response = urllib.request.urlopen(url)
html = response.read()

page_soup = soup(html,'lxml')
table = page_soup.find('p')
print(table.text)

输出：

STATION           STATION_NAME                                       ELEVATION  LATITUDE   LONGITUDE  DATE           HPCP     Measurement Flag Quality Flag 
----------------- -------------------------------------------------- ---------- ---------- ---------- -------------- -------- ---------------- ------------ 
COOP:310301       ASHEVILLE NC US                                    682.1      35.5954    -82.5568   20100101 00:00    99999                ]              
COOP:310301       ASHEVILLE NC US                                    682.1      35.5954    -82.5568   20100101 01:00        0                g              
COOP:310301       ASHEVILLE NC US                                    682.1      35.5954    -82.5568   20100102 06:00        1

BeautifulSoup发现所有表都为空

1 个答案: