我有一个series
,其中包含list
。 list
中的每个series
具有不同的长度。原因是因为我最初在string
内有一个series
,然后应用了nltk
word_tokenize()
函数。
我尝试使用apply() lambda
函数,但未成功。
例如,要计算我尝试过的唯一词的频率:
summary_word_frequency = df.summary_word_tokens.apply(lambda x: [x.value_counts() for x in df.summary_word_tokens])
对我的数据及其结构的一些见解:
在:
print(type(df.summary_word_tokens))
print(type(df.summary_word_tokens[0]))
print(type(df.summary_word_tokens[0][1]))
出局:
<class 'pandas.core.series.Series'>
<class 'list'>
<class 'str'>
在:
print(df.summary_word_tokens.shape)
print(df.summary_word_tokens[0])
print(df.summary_word_tokens[0][1])
出局:
(1000,)
['cake', 'type', 'is', 'cake', 'chocolate']
type
我的目标是能够遍历所有行,因为我希望能够将令牌提供给算法。
还是所有人都建议采用其他方法将列表标记化/制成列表(这样就可以将其归入系列)?如果问题是不受监督的,标记方式是否重要?
谢谢