我正在使用电子邮件抓取工具进行学习 我无法理解如何运行任务并查看仍在后台运行的任务。
在我的views.py中:
def home(request):
form = SignUpForm(request.POST or None)
if form.is_valid():
save_it= form.save(commit=False)
save_it.save()
messages.success(request,"Working, please wait........")
baseurl=form.cleaned_data['site']
maxemails=form.cleaned_data['max_emails']
maxurl=form.cleaned_data['max_links']
startcraw.delay(baseurl,maxurl,maxemails)
return HttpResponseRedirect('/done/')
#form not valid
return render_to_response("signup.html",locals(),context_instance=RequestContext(request))
在tasks.py中的我有:
from celery import task
from .craw import crawler
@task()
def startcraw(base,url,emails):
f = open('myfile','w')
f.write('hi there\n') # python will convert \n to os.linesep
f.close()
list= crawler(base,url,emails)
list.save()
我尝试使用写入文件行进行调试
我如何知道爬虫是否正在运行以及如何将结果保存/拉到我的数据库(SQLite) 任何帮助将不胜感激
答案 0 :(得分:0)
您需要使用Celery Logger。 简单的例子:
from celery.utils.log import get_task_logger
logger = get_task_logger(__name__)
@app.task
def add(x, y):
logger.info('started adding function at time {0}'.format(datetime.now()))
return x + y
这里描述: http://docs.celeryproject.org/en/latest/userguide/tasks.html#logging 实际上Celery有很好的文档,因此可以在那里找到所有信息。 另外我认为你需要为爬行这样的目标安排任务。 http://celery.readthedocs.org/en/latest/userguide/periodic-tasks.html