我想计算一个句子中一个单词的频率。我的数据框有一个“标题”列,其中每一行都包含一个句子(字符串)。这是我目前的方法:
# num times queryWord is in sentence / num words in sentence
list = df['Title'].str.count(queryWord) / len(df['Title'].str.split())
但是,len(df['Title'].str.split())
返回“标题”列的长度,而不是由split()在每一行中生成的数组的长度。我该如何解决?
答案 0 :(得分:1)
这应该可以解决问题:
list = df['Title'].str.count(queryWord) / df['Title'].str.split().str.len()
df['Title'].str.split()
返回pd.Series
个对象中的list
个。这就是为什么这个问题被标记为重复的原因。