当由cronjob启动时,Elasticsearch会退出大容量插入

时间:2019-01-21 15:02:32

标签: python elasticsearch scrapy

我有一个使用python-scrapy和scrapy-elasticsearch管道模块的应用程序,用于向Elasticsearch添加新数据。只要我通过ssh以root身份登录,并从命令行运行包含scrapy.crawler CrawlerRunner(它是从脚本而不是scrapy shell运行)的应用程序,它就可以完美运行。

但是,当我使用bash脚本或以python crawlercontroller.py的形式启动cronjob应用程序时,它会在此过程中更新elasticsearch,我可以看到ES中的文档数量有所增加,但完成后新文件消失。

我尝试了几种不同的方法来使用cronjob开始工作,意识到我使用的是特定的python版本,因此cronjob命令行是python版本的完整路径,然后是python脚本的完整路径。我可以从命令行手动验证此功能。

我也尝试过在内部使用类似命令启动bash shell脚本,并作为守护程序运行,或者不带&。我已经尝试了bash文件本身中的许多选项,例如包括she-bang行和导出shell路径,但是我总是得到相同的结果,它运行完整,并带有日志文件中的文档,该文档中没有错误,但只有elasticsearch数据库未更新。

有什么想法吗?

0 个答案:

没有答案