我有这个网站用于搜索数据(http://wedge3.hcauditor.org),
这是开始页面上的图像。
这里是第一个输入框(House # Range
)= 3419
并且second one
是(空)
第三个(Street Name
)= Wabash
当我们提交此数据并且我们有此链接时, http://wedge3.hcauditor.org/view/re/0570005018800/2017/summary
我们无法创建用于搜索数据的网址,因为此链接仅更改包裹ID(0570005018800)
实际上,我是python web scrap的新手,但我对urllib,beautifulsoup和请求模块有很好的了解。
我需要知道,我们可以使用python执行此操作,以及是否使用了哪个模块。
我正在使用python 3.6
答案 0 :(得分:0)
你可以使用硒。以下简单示例 -
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
browser = webdriver.Chrome("./chromedriver") #download chromebrowser
browser.get("http://wedge3.hcauditor.org/") #open page in browser
outDF = pd.DataFrame(columns=['prodname', 'imageurl', 'minprice', 'maxprice', 'actualprice']) #template of data
browser.find_element(By.XPATH, "//input[contains(@name, 'site_house_number_low')]").send_keys('3419')
browser.find_element(By.XPATH, "//input[contains(@name, 'site_street_name')]").send_keys('Wabash')
x = browser.find_elements(By.XPATH, "//button[contains(@type, 'submit')]/span")[1].click()
#browser.quit()
您必须为此
下载chromedriver