我有一个熊猫数据框。它具有一些None值。我正在尝试将它们替换为空字符串。这是我已经编写的代码。
data = pd.read_csv("./Drugs/drugsComTrain_raw.csv", skipinitialspace = True)
data["condition"] = data["condition"].fillna(value=np.nan, inplace=True)
data["condition"] = data["condition"].replace(np.nan, "Empty", inplace=True)
但是这没有发生。因为当我尝试将数据拟合到矢量化器中时,似乎None值仍然在那里。下面是给出错误代码的给定代码
def preprocess_text(text):
print(f"text: {text}")
print(f"type: {type(text)}")
tokeniser = RegexpTokenizer(r'\w+')
tokens = tokeniser.tokenize(text)
lemmatiser = WordNetLemmatizer()
lemmas = [lemmatiser.lemmatize(token.lower(), pos='v') for token in tokens]
keywords= [lemma for lemma in lemmas if lemma not in stopwords.words('english')]
return keywords
vectoriser = TfidfVectorizer(analyzer=preprocess_text)
condition = pd.DataFrame(vectoriser.fit_transform(data["condition"]).toarray())
这是我遇到的错误。