使用BeautifulSoup抓取网站时阅读页码

时间:2018-10-07 04:27:28

标签: python web-scraping beautifulsoup

我正在尝试仅读取URL链接中的页码并将其放入变量。下面是我从网站上抓取的变量的打印输出

<li><a href="https://bp.portwallet.com/report/topUp?source=gp_web&amp;allSearch=&amp;amountFrom=1&amp;amountTo=50000&amp;startdate=2018-10-03&amp;enddate=2018-10-03&amp;topUpSearch=topUpSearch&amp;status=1&amp;rType=Prepaid&amp;per_page=46">Last ›</a></li>

我需要将per_page =值放入变量中。

我试图只刮取数字,但没有碰到

1 个答案:

答案 0 :(得分:0)

.error()

输出:

from bs4 import BeautifulSoup
page = '''<li><a href="https://bp.portwallet.com/report/topUp?source=gp_web&amp;allSearch=&amp;amountFrom=1&amp;amountTo=50000&amp;startdate=2018-10-03&amp;enddate=2018-10-03&amp;topUpSearch=topUpSearch&amp;status=1&amp;rType=Prepaid&amp;per_page=46">Last ›</a></li>'''
soup = BeautifulSoup(page, 'html.parser')
x = soup.select('a')
per_page = (x[0]['href']).split('per_page=')[-1]
print('per_page:', per_page)