网页抓取假人(或不抓取)

时间:2020-06-23 12:40:40

标签: python python-3.x web-scraping scrapy

目标

自动从网页中提取数据。

有关此page的数据...请注意,它是法语的...

“我的硬道”,手动

  1. 我通过单击左侧的所需字段(“ CHOISIR DES INDICATEURS”)来选择所需的数据
  2. 然后我选择('Tableau'= Table),以获得数据表。
  3. 然后我点击右侧的('Action'),然后单击('Exporter'= Export)
  4. 我选择了我想要的格式(即CSV),然后点击(“ Executer” = Execute)以下载文件。

我尝试过的东西

我试图使这一过程自动化,但这对我来说就像是不可能完成的任务。我试图检查该页面以进行网络交换,以查看是否存在可以轻松进行json请求的底层服务器。

我主要使用python和BS4或scrapy之类的框架。

我要提取的数据很少,因此我可以轻松地手动进行。因此,我纯粹出于我自己的知识,就这个问题来看是否有可能抓取这样的页面。

如果您能分享自己的技能,我将不胜感激!

谢谢

1 个答案:

答案 0 :(得分:0)

有可能。检查此网站以获取详细信息。该网站将通过示例告诉您如何抓取网站。 https://realpython.com/beautiful-soup-web-scraper-python/#scraping-the-monster-job-site

相关问题