尝试在熊猫中建立语料库时内核不断死

时间:2018-08-25 23:42:34

标签: python pandas kernel jupyter-notebook corpus

我过去曾经运行过这段代码,并且运行良好。几个月后,它一直导致内核死亡。

我重新安装并更新了所有与conda / python相关的文件。似乎无关紧要。它停在最后一行,并且没有打印出错误消息。

它工作了一次,但最近8次失败了7次。

corpus = df['reviewText']

import nltk
import re
nltk.download('stopwords')

wpt = nltk.WordPunctTokenizer()
stop_words = nltk.corpus.stopwords.words('english')

def normalize_document(doc):
    # lower case and remove special characters\whitespaces
    doc = re.sub(r'[^a-zA-Z\s]', '', doc, re.I|re.A)
    doc = doc.lower()
    doc = doc.strip()
    # tokenize document
    tokens = wpt.tokenize(doc)
    # filter stopwords out of document
    filtered_tokens = [token for token in tokens if token not in stop_words]
    # re-create document from filtered tokens
    doc = ' '.join(filtered_tokens)
    return doc

normalize_corpus = np.vectorize(normalize_document)
norm_corpus = normalize_corpus(corpus)

很高兴听到任何建议或想法。如果有某种方法可以显示错误或内核死亡的原因,请告诉我。

1 个答案:

答案 0 :(得分:0)

这似乎有帮助:

# Get rid of accumulated garbage
import gc
gc.collect()