与同一文件'plot_summary_generator_utils.py'的先前版本相比,我添加了lemmatization功能。在同一个文件中使用任何文本进行测试时,它都可以工作。但是,当我在另一个文件中运行相同功能时,该功能不会显示。
我已经看过代码,似乎没有什么错。但是,我应该指出,前一天晚上我为此项目创建了本地和远程git repo。我不知道是否会导致此错误。
这是文件'plot_summary_generator_utils.py'中有问题的函数:
# function to clean up and tokenize the raw text of the corpus
def preprocess_corpus_text(raw_string,lemmatize=True):
transtable = str.maketrans('', '', string.punctuation)
raw_string = re.sub(r'(?<=[.,])(?=[^\s])', r' ', raw_string)
stop_words=set(stopwords.words('english'))
wordnet_lemmatizer = WordNetLemmatizer()
sentence_tokens = sent_tokenize(raw_string)
word_tokens = []
for sentence in sentence_tokens:
clean_sentence = sentence.translate(transtable)
tok = word_tokenize(clean_sentence)
word_tokens.append(tok)
final_tokens = []
for sentence in word_tokens:
ntk = [w for w in sentence if not w in stop_words]
final_tokens.append(ntk)
if lemmatize:
lemmatized_tokens = []
for i in range(len(final_tokens)):
wordtoks = []
for word in final_tokens[i]:
wordlemma = wordnet_lemmatizer.lemmatize(word,pos='v')
wordtoks.append(wordlemma)
lemmatized_tokens.append(wordtoks)
return lemmatized_tokens
else:
return final_tokens
这些是来自另一个脚本的行:
from plot_summary_generator_utils import *
t = preprocess_corpus_text(teststr1,lemmatize=True)
预期结果是标记化句子的列表。
错误是:
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-224-b603626c41f1> in <module>
----> 1 t = preprocess_corpus_text(teststr1,lemmatize=True)
TypeError: preprocess_corpus_text() got an unexpected keyword argument 'lemmatize'
更新:
这似乎是与git相关的问题。我创建了一个新文件夹,并将最新的存储库克隆到其中,并执行了该程序。似乎可以与克隆的仓库配合使用。
我仍然想知道如何使其与原始存储库一起使用。