Question

我正在尝试从以下网站获取一些数据。 https://www.drugbank.ca/drugs

那么，对于表中的每种药物，我需要深入了解并拥有名称和其他一些特定功能，如类别，结构化指示（请点击药物名称查看功能我将使用）。我写了下面的代码，但问题是我不能让我的代码处理分页（正如你看到的那样超过2000页！）。

建议？提前致谢

import requests
from bs4 import BeautifulSoup


def drug_data():
url = 'https://www.drugbank.ca/drugs/'
r = requests.get(url)
soup = BeautifulSoup(r.text ,"lxml")
for link in soup.select('name-head a'):
    href = 'https://www.drugbank.ca/drugs/' + link.get('href')
    pages_data(href)


def pages_data(item_url):
r = requests.get(item_url)
soup = BeautifulSoup(r.text, "lxml")
g_data = soup.select('div.content-container')

for item in g_data:
    print item.contents[1].text
    print item.contents[3].findAll('td')[1].text
    try:
        print item.contents[5].findAll('td',{'class':'col-md-2 col-sm-4'})
    [0].text
    except:
        pass
    print item_url
    drug_data()

Answer 1

此页面对所有页面使用几乎相同的网址，因此您可以使用for循环生成它们

def drug_data(page_number):
    url = 'https://www.drugbank.ca/drugs/?page=' + str(page_number)
    ... rest ...

# --- later ---

for x in range(1, 2001):
    drug_data(x)

或使用while和try/except获得超过2000页

# --- later ---
page = 0

while True:
    try:
        page += 1
        drug_data(page)
    except Exception as ex:
        print(ex)
        print("probably last page:", page)
        break # exit `while` loop

您还可以在HTML

中找到下一页的网址

<a rel="next" class="page-link" href="/drugs?approved=1&amp;c=name&amp;d=up&amp;page=2">›</a>

因此您可以使用BeautifulSoup获取此链接并使用它。

显示当前网址，找到下一页的链接（使用class="page-link" rel="next"）并加载

import requests
from bs4 import BeautifulSoup

def drug_data():
    url = 'https://www.drugbank.ca/drugs/'

    while url:
        print(url)
        r = requests.get(url)
        soup = BeautifulSoup(r.text ,"lxml")

        #data = soup.select('name-head a')
        #for link in data:
        #    href = 'https://www.drugbank.ca/drugs/' + link.get('href')
        #    pages_data(href)

        # next page url
        url = soup.findAll('a', {'class': 'page-link', 'rel': 'next'})
        print(url)
        if url:
            url = 'https://www.drugbank.ca' + url[0].get('href')
        else:
            break

drug_data()

顺便说一句：永远不要使用except:pass，因为您可能会遇到错误而且您没有预料到，并且您不会知道它为什么不起作用。更好的显示错误

 except Exception as ex:
      print('Error:',  ex)

与beautifulSoup分页

1 个答案: