我正在尝试在我的“数据框”列之一上应用WordNet最小化。
我的数据框如下:
+--------------------+-----+
| removed|stars|
+--------------------+-----+
|[today, second, t...| 1.0|
|[ill, first, admi...| 4.0|
|[believe, things,...| 1.0|
|[great, lunch, to...| 4.0|
|[weve, huge, slim...| 5.0|
|[plumbsmart, prov...| 5.0|
因此,每一行都是令牌列表。现在,我要对每个标记进行词法化。
我尝试过:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
df_lemma= df_removed.select(lemmatizer.lemmatize('removed'))
df_lemma.show()
我没有收到任何错误消息,但是我的数据框没有更改。
+--------------------+
| removed|
+--------------------+
|[today, second, t...|
|[ill, first, admi...|
|[believe, things,...|
|[great, lunch, to...|
|[weve, huge, slim...|
|[plumbsmart, prov...|
我的代码中是否有任何错误?我应该如何使用lemmatizer?