如何在pyspark数据帧上应用Word Net Lemmatizer?

时间:2020-04-06 08:23:04

标签: pyspark nltk lemmatization

我正在尝试在我的“数据框”列之一上应用WordNet最小化。

我的数据框如下:

+--------------------+-----+
|             removed|stars|
+--------------------+-----+
|[today, second, t...|  1.0|
|[ill, first, admi...|  4.0|
|[believe, things,...|  1.0|
|[great, lunch, to...|  4.0|
|[weve, huge, slim...|  5.0|
|[plumbsmart, prov...|  5.0|

因此,每一行都是令牌列表。现在,我要对每个标记进行词法化。

我尝试过:

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer() 

df_lemma= df_removed.select(lemmatizer.lemmatize('removed')) 
df_lemma.show()

我没有收到任何错误消息,但是我的数据框没有更改。

+--------------------+
|             removed|
+--------------------+
|[today, second, t...|
|[ill, first, admi...|
|[believe, things,...|
|[great, lunch, to...|
|[weve, huge, slim...|
|[plumbsmart, prov...|

我的代码中是否有任何错误?我应该如何使用lemmatizer?

0 个答案:

没有答案