根据通过python脚本传递给蜘蛛的URL列表运行scrapy spider

时间:2015-11-09 11:04:22

标签: python web-crawler scrapy scrapy-spider

我从数据库中获取了1000个URL以及名称和ID等2个字段 我的清单看起来像

[{'name':'name1','id':'id1,'link':'myurl1'},
 {'name':'name2','id':'id2,'link':'myurl2'},
 {'name':'name3','id':'id3,'link':'myurl3'},
 ...
 {'name':'name1000','id':'id1000,'link':'myurl1000'}
]

现在我想创建一个蜘蛛来查找上面列表中的link 如何将上面的列表传递给scrapy spider,处理link并在处理后返回相应的id

编辑: 我不希望蜘蛛访问数据库

1 个答案:

答案 0 :(得分:0)

如果你想在蜘蛛级别做这个 添加函数start_requests。从start_requests函数查询数据库,并为每个项添加请求并在元

中传递id

您将在回调函数中从meta获取带有响应的链接ID。所以做任何你想要的响应和id

但我建议为1个网址编写蜘蛛,在部署了蜘蛛之后,为每个网址编写蜘蛛。您可以将链接ID作为参数传递,在管道中可以执行爬网操作