为什么在尝试抓取网页后出现空白列表?

时间:2019-09-21 21:03:28

标签: python web-scraping beautifulsoup

我正在尝试从以下房屋网站中抓取地址:https://www.point2homes.com/CA/Real-Estate-Listings/ON/Brampton.html

这是我使用的代码

import requests
from bs4 import BeautifulSoup
import pandas as pd
import lxml




source=requests.get('https://www.point2homes.com/CA/Real-Estate-Listings/ON/Brampton.html')
soup=BeautifulSoup(source.text,'lxml')
match=soup.find_all('div',class_='address-container')
address=[]
for i in match:
    address.append(i.text)

然后,当我打印地址时,我得到一个空列表。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:1)

网站正在阻止该网页被废弃。

它受此CDN https://www.imperva.com/

的保护

我不知道解决这个问题的方法。

注意:他们不允许这样做是有原因的。我不是法律专家,但是如果这是合法的,我会在尝试任何其他方法之前先进行检查。特别是如果您出于商业原因打算使用它。