具有空值的数据帧上的nltk Tokenizer

时间:2019-06-09 07:24:28

标签: python python-3.x

我正在尝试将DataFrame标记为单词嵌入目的。我的DataFrame包含“问题”,“文档”和“答案”列,由于没有答案,因此某些“答案”列为空。

我似乎无法弄清楚如何更改下面的函数以忽略空值。这可能是一个简单的答案,所以请提前对不起。

我尝试了pd.isnull(x)和其他偏差,但似乎不起作用。

df_train_final是包含三列的DataFrame。

from nltk.tokenize import TreebankWordTokenizer
from nltk.tokenize import word_tokenize

tknzr = TreebankWordTokenizer()

for i in df_train_final:
  df_train_final[i] = df_train_final[i].apply(lambda x: tknzr.tokenize(x) if pd.isnull(x) else x)

ValueError:具有多个元素的数组的真值不明确。使用a.any()或a.all()

0 个答案:

没有答案