我从数据库中获取了1000个URL以及名称和ID等2个字段 我的清单看起来像
[{'name':'name1','id':'id1,'link':'myurl1'},
{'name':'name2','id':'id2,'link':'myurl2'},
{'name':'name3','id':'id3,'link':'myurl3'},
...
{'name':'name1000','id':'id1000,'link':'myurl1000'}
]
现在我想创建一个蜘蛛来查找上面列表中的link
如何将上面的列表传递给scrapy spider,处理link
并在处理后返回相应的id
。
编辑: 我不希望蜘蛛访问数据库
答案 0 :(得分:0)
如果你想在蜘蛛级别做这个
添加函数start_requests
。从start_requests函数查询数据库,并为每个项添加请求并在元
您将在回调函数中从meta获取带有响应的链接ID。所以做任何你想要的响应和id
但我建议为1个网址编写蜘蛛,在部署了蜘蛛之后,为每个网址编写蜘蛛。您可以将链接ID作为参数传递,在管道中可以执行爬网操作