Question

我对网页抓取是陌生的，并且在弄清楚如何抓取下面网页中的所有价格时遇到了麻烦。我尝试过的返回空白，任何指针都很棒！

import bs4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
from datetime import datetime
from pytz import timezone
import urllib.request


url = 'https://www.remax.ca/find-real-estate'
page = urlopen(url)
soup = bs4.BeautifulSoup(page,'html.parser')
price = soup.findAll('h3', {'class' : 'price'})

Answer 1

第一件事，如果您使用from bs4 import BeautifulSoup，也不要使用import bs4。

第二，输入soup = BeautifulSoup(page,'html.parser）

然后使用price = soup.find_all('h3',{'class':'price})

在此之后，您应该将所有价格都包含在“价格”中，但是您仍然需要优化，因为您将以这种形式复制h3中的所有代码。

编辑

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
from datetime import datetime
import urllib.request


url = 'https://www.remax.ca/find-real-estate'
page = urlopen(url)
soup = BeautifulSoup(page,'html.parser')
price = soup.find_all('h3', {'class' : 'price'})


for p in price:
    print(p.text)

这应该可以完成工作。我淘汰了熊猫，因为我没有安装它。

如何使用BeautifulSoup在页面上抓取价格数据

1 个答案: