如何让爬虫在cron jon上运行?

时间:2015-08-21 08:32:48

标签: python linux cron web-crawler crontab

这是我所做的 - 1.为我的爬虫制作了一个bash脚本

#!/bin/bash

cd /home/john/Desktop/xyz/xyz/
PATH=$PATH:/usr/local/bin
export PATH
scrapy crawl abc
  1. 将此添加到我的脚本

    !/ usr / bin / env / python

  2. 我的cron作业命令 PATH = /usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin

    * / 1 * * * * sh /home/john/Desktop/xyz/xyz/123.sh

  3. 这是一个基于selenium的抓取工具,因此它应该打开浏览器并开始抓取,但它无法正常工作。

    - grep CRON /var/log/syslog

    的输出

    CMD(sh /home/john/Desktop/xyz/xyz/123.sh)

    我做错了什么?为什么cron工作不起作用?

1 个答案:

答案 0 :(得分:0)

运行selenium作业时,shell会话需要X.尝试在headless mode中运行selenium