使用django在textblob中丢失语料库错误

时间:2015-09-15 03:53:32

标签: python django textblob

我使用的是Python 2.7和Django 1.8,我的服务器是Linux Ubuntu上的Apache。我有一个包含23000条推文的json文件。我想根据预定义的类别对推文进行分类。但是当我运行代码时,它会在/抛出MissingCorpusError并建议:

要下载必要的数据,只需运行

即可
python -m textblob.download_corpora

我已经拥有TextBlob的最新语料库。不过,我得到了错误。

我的views.py如下:

def get_tweets(request):
retweet = 0
category = ''
sentiment = ''
tweets_data_path = STATIC_PATH+'/stream.json'

tweets_data = []
tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
    try:
        tweet = json.loads(line)
        tweets_data.append(tweet)
    except:
        continue
subs = []
for l in tweets_data:
    s = re.sub("http[\w+]{0,4}://t.co/[\w]+","",l)
    subs.append(s)
for t in subs:
    i = 0
    while i < len(t):
        text = t[i]['tweet_text']
        senti = TextBlob(text)
        category = cl.classify(text)
        if senti.sentiment.polarity > 0:
            sentimen = 'positive'
        elif senti.sentiment.polarity < 0:
            sentimen = 'negative'
        else:
            sentimen = 'neutral'

        if text.startswith('RT'):
            retweet = 1
        else:
            retweet = 0

        twe = Tweet(text=text,category=category,sentiment=sentimen, retweet= retweet)
        twe.save()
        i = i+1

return HttpResponse("done")

2 个答案:

答案 0 :(得分:1)

我有同样的问题。 当我下载nltk_data时,它被放置到/ root / nltk_data /,当我将这个nltk_data文件夹复制到/ var / www /时,它工作正常。

$ sudo cp -avr nltk_data/ /var/www/

答案 1 :(得分:0)

我有这个女人的问题。我正在使用anaconda,它对我有用。 这可能会有所帮助:

http://www.nltk.org/data.html

https://anaconda.org/anaconda/nltk

$ pip3 install -U textblob

$ python3 -m textblob.download_corpora