我目前正在处理房地产数据,并希望从StreetEasy中获取一些数据,这是下面列出的价格Register to see what it closed for about 2 months ago
。
示例网址 http://streeteasy.com/sale/1220187
我需要的数据需要登录,但登录机制非常不同。没有登录页面,登录是弹出窗口。无论如何,我可以使用Python来获取身份验证并在登录后访问页面,如下图所示?
答案 0 :(得分:0)
使用Selenium和PhantomJS,您可以在抓取数据时获得强大的组合。
from selenium import webdriver
host = "http://streeteasy.com/sale/1220187"
driver = webdriver.PhantomJS()
# Set the "window" wide enough so PhantomJS can "see" the right panel
driver.set_window_size(1280, 800)
driver.get(host)
driver.find_element_by_link_text("Register to see what it closed for").click()
driver.save_screenshot("output.jpg")
你看到的是Selenium如何让你进入网页登录的小片段(通过JPG screencap验证)。从那里开始,只需切换登录框,提供凭据并click()
进入。
哦,请注意服务条款。祝你好运!