Question

我有一个熊猫数据框。它具有一些None值。我正在尝试将它们替换为空字符串。这是我已经编写的代码。

data = pd.read_csv("./Drugs/drugsComTrain_raw.csv", skipinitialspace = True)
data["condition"] = data["condition"].fillna(value=np.nan, inplace=True)
data["condition"] = data["condition"].replace(np.nan, "Empty", inplace=True)

但是这没有发生。因为当我尝试将数据拟合到矢量化器中时，似乎None值仍然在那里。下面是给出错误代码的给定代码

def preprocess_text(text):
    print(f"text: {text}")
    print(f"type: {type(text)}")
    tokeniser = RegexpTokenizer(r'\w+')
    tokens = tokeniser.tokenize(text)

    lemmatiser = WordNetLemmatizer()
    lemmas = [lemmatiser.lemmatize(token.lower(), pos='v') for token in tokens]

    keywords= [lemma for lemma in lemmas if lemma not in stopwords.words('english')]
    return keywords

vectoriser = TfidfVectorizer(analyzer=preprocess_text)
condition = pd.DataFrame(vectoriser.fit_transform(data["condition"]).toarray())

这是我遇到的错误。

无法替换pandas数据框中的None值

0 个答案: