在scrapy-python框架中获取回调的返回值

时间:2015-07-14 13:28:31

标签: python web-scraping scrapy screen-scraping scrapy-spider

我正在寻找一种从网站上获取所有网址电子邮件的方法 - 基本上是index.phpcontact.php和其他网址。我的抓取工具遍历每个页面,发出请求并从每个响应源代码中获取电子邮件。如果index.php中有电子邮件,我想存储它并添加更多可以从contact.php找到的电子邮件。这意味着item['emails']会保留一个电子邮件列表,这些电子邮件会在抓取更多网页时进行扩展。

我的问题是,因为我使用extract_emails()作为回调来获取电子邮件(在get_emails()内)如何让它返回电子邮件并将其附加到以后将被分配到{{1}的列表中}

item['emails']

1 个答案:

答案 0 :(得分:-2)

将新列表附加到现有列表中:

item['emails'] = item['emails'] + all_emails