尝试发送'列表'通过使用长字符串通过某个蜘蛛进行scrapy来进行scrapy,然后将该字符串拆分到crawler内部。我试过复制this回答中提供的格式。
我尝试发送给抓取工具的列表是future_urls
>>> print future_urls
set(['https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'http://finance.yahoo.com/q/hp?s=TFW.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=DLTR&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=AGNC&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=HMSY&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'http://finance.yahoo.com/q/hp?s=BATS.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m'])
然后通过以下方式将其发送给抓取工具:
command4 = ("scrapy crawl future -o future_portfolios_{0} -t csv -a future_urls={1}").format(input_file, str(','.join(list(future_urls))))
>>> print command4
scrapy crawl future -o future_portfolios_input_10062008_10062012_ver_1.csv -t csv -a future_urls=https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,http://finance.yahoo.com/q/hp?s=TFW.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=DLTR&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=AGNC&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=HMSY&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,http://finance.yahoo.com/q/hp?s=BATS.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m
>>> type(command4)
<type 'str'>
我的抓取工具(部分):
class FutureSpider(scrapy.Spider):
name = "future"
allowed_domains = ["finance.yahoo.com", "ca.finance.yahoo.com"]
start_urls = ['https://ca.finance.yahoo.com/q/hp?s=%5EIXIC']
def __init__(self, *args, **kwargs):
super(FutureSpider, self).__init__(*args,**kwargs)
self.future_urls = kwargs.get('future_urls').split(',')
self.rate_returns_len_min = 12
self.required_amount_of_returns = 12
for x in self.future_urls:
print "Going to scrape:"
print x
def parse(self, response):
if self.future_urls:
for x in self.future_urls:
yield scrapy.Request(x, self.stocks1)
然而,从print 'going to scrape:', x
打印出来的是:
Going to scrape:
https://ca.finance.yahoo.com/q/hp?s=ALXN
只有一个网址,并且它只是future_urls
中第一个网址的一部分,这显然有问题。
似乎无法弄清楚为什么抓取工具不会刮掉future_urls
中的所有网址...
答案 0 :(得分:1)
我认为当它击中&符号(try()
)时会停止,你可以使用&
来逃避它。
例如:
urllib.quote
然后你可以恢复正常:
import urllib
escapedurl = urllib.quote('https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m')