Question

我有一个series，其中包含list。 list中的每个series具有不同的长度。原因是因为我最初在string内有一个series，然后应用了nltk word_tokenize()函数。

我尝试使用apply() lambda函数，但未成功。例如，要计算我尝试过的唯一词的频率：

summary_word_frequency = df.summary_word_tokens.apply(lambda x: [x.value_counts() for x in df.summary_word_tokens])

对我的数据及其结构的一些见解：

在：

print(type(df.summary_word_tokens))
print(type(df.summary_word_tokens[0]))
print(type(df.summary_word_tokens[0][1]))

出局：

<class 'pandas.core.series.Series'>
<class 'list'>
<class 'str'>

在：

print(df.summary_word_tokens.shape)
print(df.summary_word_tokens[0])
print(df.summary_word_tokens[0][1])

出局：

(1000,)
['cake', 'type', 'is', 'cake', 'chocolate']
type

我的目标是能够遍历所有行，因为我希望能够将令牌提供给算法。

还是所有人都建议采用其他方法将列表标记化/制成列表（这样就可以将其归入系列）？如果问题是不受监督的，标记方式是否重要？

谢谢