使用登录要求刮取StreetEasy页面

时间:2016-11-23 03:30:48

标签: python html scrape

我目前正在处理房地产数据,并希望从StreetEasy中获取一些数据,这是下面列出的价格Register to see what it closed for about 2 months ago

示例网址 http://streeteasy.com/sale/1220187

我需要的数据需要登录,但登录机制非常不同。没有登录页面,登录是弹出窗口。无论如何,我可以使用Python来获取身份验证并在登录后访问页面,如下图所示?

1 个答案:

答案 0 :(得分:0)

使用Selenium和PhantomJS,您可以在抓取数据时获得强大的组合。

from selenium import webdriver

host = "http://streeteasy.com/sale/1220187"

driver = webdriver.PhantomJS()

# Set the "window" wide enough so PhantomJS can "see" the right panel
driver.set_window_size(1280, 800)
driver.get(host)

driver.find_element_by_link_text("Register to see what it closed for").click()

driver.save_screenshot("output.jpg")

你看到的是Selenium如何让你进入网页登录的小片段(通过JPG screencap验证)。从那里开始,只需切换登录框,提供凭据并click()进入。

哦,请注意服务条款。祝你好运!