python - 从受密码保护的网站抓取PDF

时间：2020-07-21 20:26:50

标签： python web-scraping download

我在技术支持部门工作，目前必须通过定期检查是否有更新以及是否确实替代了保存在我们网络上的当前更新来手动更新产品手册。

我想知道是否有可能构建一个小的程序来快速下载供应商网站上的所有文件，并让它们自动下载并分类到那些产品的给定文件夹中，以替换该文件中的当前PDF。我还必须注意，该网站受密码保护，并且被归类到文件夹中。

Python可以做到吗？我认为我可以每周运行一次小程序，或者自动更新手册的东西将非常有用（和学习经验）。

很抱歉，如果我没有很好地解释要求，请让我知道任何问题。

答案 0 :(得分：1)

当然有可能。另一个答案表明，您将需要使用诸如请求（处理HTTP请求）或Selenium（自动浏览器活动）之类的库来浏览登录名。

您需要对给定页面上的链接进行排序，理想情况下可以通过beautifulsoup（HTML解析器）完成，而硒（自动浏览器活动）可以完成。您需要检出类似请求的库（用于处理HTTP请求）用于下载pdf文件，该OS模块用于将文件夹分类为特定的文件夹并替换文件。

我强烈建议您仔细考虑这些步骤，但是我希望这能给您一些有关您需要学习的库的想法。要学习的最具挑战性的事情是使用硒，因此，如果您可以使用请求进行登录，那就更好了。

如果您对python有了基本的了解，那么获取请求，OS模块和beautifulsoup库就不难了。

答案 1 :(得分：0)

您可以使用selenium来实现浏览器自动化。这可以插入密码（尽管您是机器人的东西可能会阻止您），然后您可以通过设置默认下载位置并单击下载按钮来下载pdf。这将使浏览器将文件下载到默认下载位置。