Question

我从数据库中获取了1000个URL以及名称和ID等2个字段我的清单看起来像

[{'name':'name1','id':'id1,'link':'myurl1'},
 {'name':'name2','id':'id2,'link':'myurl2'},
 {'name':'name3','id':'id3,'link':'myurl3'},
 ...
 {'name':'name1000','id':'id1000,'link':'myurl1000'}
]

现在我想创建一个蜘蛛来查找上面列表中的link 如何将上面的列表传递给scrapy spider，处理link并在处理后返回相应的id。

编辑：我不希望蜘蛛访问数据库

Answer 1

如果你想在蜘蛛级别做这个添加函数start_requests。从start_requests函数查询数据库，并为每个项添加请求并在元

中传递id

您将在回调函数中从meta获取带有响应的链接ID。所以做任何你想要的响应和id

但我建议为1个网址编写蜘蛛，在部署了蜘蛛之后，为每个网址编写蜘蛛。您可以将链接ID作为参数传递，在管道中可以执行爬网操作

根据通过python脚本传递给蜘蛛的URL列表运行scrapy spider

1 个答案: