我正在尝试将DataFrame标记为单词嵌入目的。我的DataFrame包含“问题”,“文档”和“答案”列,由于没有答案,因此某些“答案”列为空。
我似乎无法弄清楚如何更改下面的函数以忽略空值。这可能是一个简单的答案,所以请提前对不起。
我尝试了pd.isnull(x)和其他偏差,但似乎不起作用。
df_train_final是包含三列的DataFrame。
from nltk.tokenize import TreebankWordTokenizer
from nltk.tokenize import word_tokenize
tknzr = TreebankWordTokenizer()
for i in df_train_final:
df_train_final[i] = df_train_final[i].apply(lambda x: tknzr.tokenize(x) if pd.isnull(x) else x)
ValueError:具有多个元素的数组的真值不明确。使用a.any()或a.all()