如何编写一个python程序,从网站上“抓取”从给定下拉菜单中选择的所有可能组合的结果?

时间:2018-06-09 15:59:07

标签: python selenium selenium-webdriver web-scraping regression

有一个网站声称根据以个人下拉形式提供的以下标准预测个人的大致工资

  1. 年龄:5个选项
  2. 教育:3个选项
  3. 性别:3个选项
  4. 工作经验:4个选项
  5. 国籍:12个选项
  6. 点击Submit按钮后,网站会在新页面上提供一组文本作为输出,并以数字形式估算薪水。

    因此,技术上有5 * 3 * 3 * 4 * 12 = 2160个数据点。我希望得到它并将其安排在excel表中。然后我会运行一个回归算法来猜测这个网站使用的功能。这是我期待通过这项工作实现的目标。这完全是出于学习目的,因为我热衷于学习这些工具。

    但我不知道怎么办呢?任何相关的教程,文档,指南都会有所帮助!我在python中编程,我很乐意用它来完成这个任务!

    谢谢!

1 个答案:

答案 0 :(得分:1)

如果您不愿意向他们询问数据库 roganjosh 建议:)请使用 Selenium。在Python中编写一个控制Web驱动程序的脚本,并重复向所有可能的组合发送请求。该脚本非常简单,只是每种参数/下拉列表的嵌套循环。

如果您确定每种类型的值不相互依赖,请检查向服务器发送的请求。如果是简单的URL编码,例如age=...&sex=...&...,,那么不需要Selenium 。只需为所有可能的组合生成这样的URLa并调用服务器。