我有一个简单的python脚本,用于获取推文并将它们缓存到磁盘,配置为通过cron每两分钟运行一次。
*/2 * * * * (date ; /usr/bin/python /path/get_tweets.py) >> /path/log/get_tweets.log 2>&1
该脚本大部分时间都成功运行。但是,每隔一段时间脚本就不会执行。除了其他日志记录之外,我在脚本的上方添加了一个简单的print语句,除了初始date命令的输出之外没有任何内容使它成为日志。
#!/usr/bin/python
# Script for Fetching Tweets and then storing them as an HTML snippet for inclusion using SSI
print "Starting get_tweets.py"
import simplejson as json
import urllib2
import httplib
import re
import calendar
import codecs
import os
import rfc822
from datetime import datetime
import time
import sys
import pprint
debug = True
now = datetime.today()
template = u'<p class="tweet">%s <span class="date">on %s</span></p>'
html_snippet = u''
timelineUrl = 'http://api.twitter.com/1/statuses/user_timeline.json?screen_name=gcorne&count=7'
tweetFilePath = '/path/server-generated-includes/tweets.html'
if(debug): print "[%s] Fetching tweets from %s." % (now, timelineUrl)
def getTweets():
request = urllib2.Request(timelineUrl)
opener = urllib2.build_opener()
try:
tweets = opener.open(request)
except:
print "[%s] HTTP Request %s failed." % (now, timelineUrl)
exitScript()
tweets = tweets.read()
return tweets
def exitScript():
print "[%s] Script failed." % (now)
sys.exit(0)
tweets = getTweets()
now = datetime.today()
if(debug): print "[%s] Tweets retrieved." % (now)
tweets = json.loads(tweets)
for tweet in tweets:
text = tweet['text'] + ' '
when = tweet['created_at']
when = re.match(r'(\w+\s){3}', when).group(0).rstrip()
# print GetRelativeCreatedAt(when)
# convert links
text = re.sub(r'(http://.*?)\s', r'<a href="\1">\1</a>', text).rstrip()
#convert hashtags
text = re.sub(r'#(\w+)', r'<a href="http://www.twitter.com/search/?q=%23\1">#\1</a>', text)
# convert @ replies
text = re.sub(r'@(\w+)', r'@<a href="http://www.twitter.com/\1">\1</a>', text)
html_snippet += template % (text, when) + "\n"
#print html_snippet
now = datetime.today()
if(debug): print "[%s] Opening file %s." % (now, tweetFilePath)
try:
file = codecs.open(tweetFilePath, 'w', 'utf_8')
except:
print "[%s] File %s cound not be opened." % (now, tweetFilePath)
exitScript()
now = datetime.today()
if(debug): print "[%s] Writing %s to disk." % (now, tweetFilePath)
file.write(html_snippet)
now = datetime.today()
if(debug): print "[%s] Finished writing %s to disk." % (now, tweetFilePath)
file.close()
sys.exit(0)
有什么想法吗?该系统是运行带有python 2.4的Centos 5.3的VPS。
更新:我添加了整个脚本以避免混淆。
答案 0 :(得分:2)
最可能的解释是,偶尔脚本需要超过两分钟(可能系统偶尔会非常繁忙,或者脚本可能需要等待一些偶尔会忙的外部网站等)并且你的cron是明智的一个跳过尚未终止的重复事件。通过记录脚本的起始和结束次,您将能够仔细检查是否是这种情况。在这种情况下你想要做什么取决于你(我建议你考虑跳过偶尔的运行,以避免进一步超载一个非常繁忙的系统 - 你自己的系统,或你从中获取数据的远程系统)。
答案 1 :(得分:1)
我刚刚遇到Python脚本的问题,有时候不能在crontab中运行,但总是从命令行运行。事实证明我必须将日志记录重定向到/dev/null
。否则标准输出似乎已满,程序停止并且该过程被终止。使用/dev/null
转储输出,一切都很好。