如何编写一个抓取多个网页的抓取程序?

时间:2020-05-17 13:58:46

标签: python web-scraping scrapy

因此,我有一个项目可以从不同的网站上抓取工作数据

Excel工作表中有2000个网站网址的列表(每个网站都有不同的html结构),我必须在草率地传递这些网址,并按照以下数据标题,公司,国家/地区,类别,说明,应用链接,抓取日期,更新日期,创建日期。

这将分为两个步骤:

  1. 从excel工作表转到网站网址,并从页面抓取所有工作链接。

  2. 从第一步开始抓取链接,然后抓取以下数据标题,公司,国家/地区,类别,说明,应用链接,抓取日期,更新日期,创建日期。

我想问一下是否有可能出现这种情况,如果可以的话,我该如何编写程序。

1 个答案:

答案 0 :(得分:0)

您可以确认所有网页都处于“列表详细信息”模式吗?这意味着,有一个[列表页面](其中包含许多作业,可以通过页码访问),并且所有作业详细信息字段都位于[作业详细信息页面]

如果是,我们可以定义field_name和XPath映射。像这样:

  1. 网站1:job_title:xpath1类别:xpath2 ...
  2. 网站2:job_title:xpath21类别:xpath22

我们需要考虑很多情况。

  1. 是否所有字段都直接存在于HTML中?或某些网站使用JSON 格式化ajax请求?
  2. 所有字段是否都以相同的格式存在(全部为HTML或全部为JSON)?页面的HTML代码中可能存在某些字段,JSON格式的脚本中存在某些字段
  3. 是否所有网站都使用GET方法来请求[列表页面]?还是某些网站使用POST?如果网站使用POST,他们是否发布JSON格式的有效负载或key = value对表单数据?

总之,在这里很难弄清楚所有事情。