我的女友被赋予从网页上获取所有数据的任务。该网页属于成人教育中心。要访问该网页,您必须先登录。URL是一个.asp文件。
她必须将数据放在Excel工作表中。条目是学生姓名,电话号码,身份证号码,电话等。条目数以千计。仅人力资源专业的学生就有70页的条目。所有这些都以表格形式显示在网页上。可以复制和粘贴。
我可以合理地处理Python openpyxl,并且听说过网络抓取,我相信Python可以做到。
我不知道什么是.asp。
能否请您给我一些关于如何使用Python获取数据的提示,指针?
我可以自动执行此任务吗?
这是MySQL的情况吗? (对此我一无所知。)
答案 0 :(得分:1)
这是一个非常广泛的问题,而不是Stack Overflow的风格。无论如何给你一些指示。最后,据我所知,.asp文件的行为类似于普通网站。普通网站在浏览器中解释为HTML,CSS等。可以用Python解析。在过去的工作中,我使用了两种方法。一种是使用requests
之类的库来获取页面的HTML,然后使用BeautifulSoup
库来读取它。如果您需要访问经过身份验证的页面,这将变得更加复杂。另一个选项是对Python使用Selenium
。该模块更多是自动进行浏览的工具。您可以使用它来自动访问网站并输入登录凭据,然后阅读页面上的内容。可能还有更多选择,这就是为什么这个问题过于广泛的原因。不过,祝您的项目好运!
编辑:您不需要MySql。尤其是如果所需的输出是Excel文件(而不是我将其生成为CSV文件),则不会,因为标准Python在CSV文件中比Excel更有效。
答案 1 :(得分:1)
尝试使用名为Octoparse的工具。
免责声明:我从未亲自使用过它,而只是接近使用它。因此,据我对功能的了解,我认为它将对您的需求有用。