如何从单个网页中的多个URL抓取数据

时间:2019-06-09 08:10:55

标签: python web-scraping beautifulsoup

我正在学习网络抓取功能,并试图抓取不同卡的信用卡数据,我所面临的问题是我只抓取我添加的网址中的一张卡的数据,我要抓取不同卡中的所有网址,我没有得到将所有网址一起循环

这是我到目前为止的代码:

import requests
import bs4
from bs4 import BeautifulSoup as soup
from lxml import html

page = requests.get("https://www.bankfab.ae/en/cards/fab-visa-infinite")

 s = soup(page.content)

o =[]
str1=" "
for i in s.findAll('div', class_ = 'content-section'):
print(i.text)
o.append(i.text)
str1 = str1.join(o)
f = open(r'C:\Users\AArshad\Desktop\web scrapping data\web.txt', "w")
f.write(str1)
f.close()

1 个答案:

答案 0 :(得分:0)

要查找所有网址,可以搜索锚标记“ a”而不是“ div”,并​​将“ class”更改为“ type =“ href”:

for element in s.findAll('a', type = 'href'):
    print(element.text)

这将打印HTML的所有超链接