使用Python刮擦多个页面属性数据

时间:2017-11-20 10:41:23

标签: python screen-scraping

需要从以下网站中删除多页数据

https://dubai.dubizzle.com/en/property-for-rent/commercial/office/?page=1

要获得的领域是"价格,描述,区域和位置"多页面。我只写了以下代码。此外,我不知道如何解析电话号码,因为它只在您打开特定链接时出现

from urllib.request import urlopen
from bs4 import BeautifulSoup

file = "Dubizzle.csv"
f = open(file, "w")
Headers = "Price,Area,Description,Location,Website\n"
f.write(Headers)
for page in range(1, 4):
    url = "https://dubai.dubizzle.com/en/property-for-rent/commercial/office/?page={}".format(page)
    html = urlopen(url)
    soup = BeautifulSoup(html, "html.parser")

1 个答案:

答案 0 :(得分:0)

要查看电话号码,您必须点击“显示电话号码”按钮,这是正确的。但在检查页面元素后,您可以看到电话号码已经存在,它只是隐藏,并在您单击按钮后出现在页面上。

<img class="phone-num-img" src="data:image/png;base64,...

不幸的是,电话号码保留为PNG图像,因此即使它在那里,您也必须以某种方式解析图像以获取电话号码。