Python如何在csv文件中将词袋应用于推文

时间:2017-12-03 20:27:00

标签: python twitter scikit-learn nlp nltk

我目前正在进行Twitter数据分析,并且一直致力于在Python中应用词袋技术并且一直没有运气。 目前我已经能够通过一些预处理流式传输数据以存储在数据库中,然后我将推文导出到csv文件中,但在下一部分使用词袋进行机器学习时磕磕绊绊。

我已经尝试过关注better check the new Amdahl's Law re-formulation carefully ( implications on costs of going distributed or parallel )但是我没有成功,并且只是通过查看scikit或nltk文档就无法理解如何处理。任何人都可以建议我可以遵循的教程,以实现Python 3的单词包? 谢谢你的帮助

1 个答案:

答案 0 :(得分:1)

所以scikit-learn的CountVectoriser是一个很好的起点。您需要创建一些固定大小的词汇表(从您的推文中收集的N个唯一词),以便您可以将每个推文表示为固定长度向量,其中向量中的每个位置代表词汇表中的特定单词,以及value是单词出现的次数。

使用纯Python,这将是:

  1. 创建推文文本数组
  2. 初始化一个代表词汇量的空集
  3. 首先通过推文

    1. 对于每条推文,提取唯一的单词
      • 如果这些单词不存在,请将这些单词添加到词汇表中
    2. 第二次通过相同的推文

      1. 对于每条推文,提取唯一的单词
        • 创建一个填充了大小为N的零的向量,表示推文
        • 对于每个单词,递增与向量
        • 中单词位置对应的计数
      2. 您可以使用1或0表示是否存在单词而不是单词频率。看看有什么用。

        但是,scikit-learn使这一切变得更容易。

        我发现this tutorial也可能有所帮助。