应用错误收集

因此，我有一个项目可以从不同的网站上抓取工作数据

Excel工作表中有2000个网站网址的列表（每个网站都有不同的html结构），我必须在草率地传递这些网址，并按照以下数据标题，公司，国家/地区，类别，说明，应用链接，抓取日期，更新日期，创建日期。

这将分为两个步骤：

我想问一下是否有可能出现这种情况，如果可以的话，我该如何编写程序。

您可以确认所有网页都处于“列表详细信息”模式吗？这意味着，有一个[列表页面]（其中包含许多作业，可以通过页码访问），并且所有作业详细信息字段都位于[作业详细信息页面]

如果是，我们可以定义field_name和XPath映射。像这样：

我们需要考虑很多情况。

是否所有字段都直接存在于HTML中？或某些网站使用JSON 格式化ajax请求？
所有字段是否都以相同的格式存在（全部为HTML或全部为JSON）？页面的HTML代码中可能存在某些字段，JSON格式的脚本中存在某些字段
是否所有网站都使用GET方法来请求[列表页面]？还是某些网站使用POST？如果网站使用POST，他们是否发布JSON格式的有效负载或key = value对表单数据？

总之，在这里很难弄清楚所有事情。