python - 网页抓取假人（或不抓取） - Thinbug

网页抓取假人（或不抓取）

时间：2020-06-23 12:40:40

标签： python python-3.x web-scraping scrapy

目标

自动从网页中提取数据。

有关此page的数据...请注意，它是法语的...

“我的硬道”，手动

我通过单击左侧的所需字段（“ CHOISIR DES INDICATEURS”）来选择所需的数据
然后我选择（'Tableau'= Table），以获得数据表。
然后我点击右侧的（'Action'），然后单击（'Exporter'= Export）
我选择了我想要的格式（即CSV），然后点击（“ Executer” = Execute）以下载文件。

我尝试过的东西

我试图使这一过程自动化，但这对我来说就像是不可能完成的任务。我试图检查该页面以进行网络交换，以查看是否存在可以轻松进行json请求的底层服务器。

我主要使用python和BS4或scrapy之类的框架。

我要提取的数据很少，因此我可以轻松地手动进行。因此，我纯粹出于我自己的知识，就这个问题来看是否有可能抓取这样的页面。

如果您能分享自己的技能，我将不胜感激！

谢谢

1 个答案:

答案 0 :(得分：0)

有可能。检查此网站以获取详细信息。该网站将通过示例告诉您如何抓取网站。 https://realpython.com/beautiful-soup-web-scraper-python/#scraping-the-monster-job-site