在this中给了我这个提示,所以我问了一个问题:
现在您有了矩阵表示形式(行是乘积, 列是每个唯一字的计数),您可以过滤 矩阵降到最常用的词。我鼓励你采取 看一下字数分布的样子。我们将使用seaborn 为此,然后像这样导入它:
import seaborn as sns
鉴于您的保存字数矩阵的pd.DataFrame被称为 df,
sns.distplot(df.sum())
应该可以解决问题。选择一些截止 看起来它保留了很大一部分计数,但没有 包括许多低计数的单词。它可以是任意的,也可以不是 现在真的很重要。您的字数矩阵是您的输入数据,或者 也称为预测变量。在机器学习中,这通常是 称为输入矩阵或向量X
。
我设法为每一栏做词袋(BOG)。代码如下:
df['BOW'] = df.Review2.str.split().apply(Counter)
但是当我尝试按照建议(sns.distplot(df['BOW'].sum())
)进行可视化时,出现以下错误:
/:'Counter'和'int'不受支持的操作数类型
阅读帖子并度过美好的一天:)