如何使用BeautifulSoup在页面上抓取价格数据

时间:2020-06-21 20:40:15

标签: python

我对网页抓取是陌生的,并且在弄清楚如何抓取下面网页中的所有价格时遇到了麻烦。我尝试过的返回空白,任何指针都很棒!

import bs4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
from datetime import datetime
from pytz import timezone
import urllib.request


url = 'https://www.remax.ca/find-real-estate'
page = urlopen(url)
soup = bs4.BeautifulSoup(page,'html.parser')
price = soup.findAll('h3', {'class' : 'price'})

1 个答案:

答案 0 :(得分:1)

第一件事,如果您使用from bs4 import BeautifulSoup,也不要使用import bs4

第二,输入soup = BeautifulSoup(page,'html.parser

然后使用price = soup.find_all('h3',{'class':'price})

在此之后,您应该将所有价格都包含在“价格”中,但是您仍然需要优化,因为您将以这种形式复制h3中的所有代码。

编辑

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
from datetime import datetime
import urllib.request


url = 'https://www.remax.ca/find-real-estate'
page = urlopen(url)
soup = BeautifulSoup(page,'html.parser')
price = soup.find_all('h3', {'class' : 'price'})


for p in price:
    print(p.text)

这应该可以完成工作。我淘汰了熊猫,因为我没有安装它。