如何遍历系列中的列表

时间:2019-03-18 17:26:42

标签: python pandas list nlp series

我有一个series,其中包含listlist中的每个series具有不同的长度。原因是因为我最初在string内有一个series,然后应用了nltk word_tokenize()函数。

我尝试使用apply() lambda函数,但未成功。 例如,要计算我尝试过的唯一词的频率:

summary_word_frequency = df.summary_word_tokens.apply(lambda x: [x.value_counts() for x in df.summary_word_tokens])

对我的数据及其结构的一些见解:

在:

print(type(df.summary_word_tokens))
print(type(df.summary_word_tokens[0]))
print(type(df.summary_word_tokens[0][1]))

出局:

<class 'pandas.core.series.Series'>
<class 'list'>
<class 'str'>

在:

print(df.summary_word_tokens.shape)
print(df.summary_word_tokens[0])
print(df.summary_word_tokens[0][1])

出局:

(1000,)
['cake', 'type', 'is', 'cake', 'chocolate']
type

我的目标是能够遍历所有行,因为我希望能够将令牌提供给算法。

还是所有人都建议采用其他方法将列表标记化/制成列表(这样就可以将其归入系列)?如果问题是不受监督的,标记方式是否重要?

谢谢

0 个答案:

没有答案