因此,我有一个项目可以从不同的网站上抓取工作数据
Excel工作表中有2000个网站网址的列表(每个网站都有不同的html结构),我必须在草率地传递这些网址,并按照以下数据标题,公司,国家/地区,类别,说明,应用链接,抓取日期,更新日期,创建日期。
这将分为两个步骤:
从excel工作表转到网站网址,并从页面抓取所有工作链接。
从第一步开始抓取链接,然后抓取以下数据标题,公司,国家/地区,类别,说明,应用链接,抓取日期,更新日期,创建日期。
我想问一下是否有可能出现这种情况,如果可以的话,我该如何编写程序。
答案 0 :(得分:0)
您可以确认所有网页都处于“列表详细信息”模式吗?这意味着,有一个[列表页面](其中包含许多作业,可以通过页码访问),并且所有作业详细信息字段都位于[作业详细信息页面]
如果是,我们可以定义field_name和XPath映射。像这样:
我们需要考虑很多情况。
总之,在这里很难弄清楚所有事情。