我目前正在进行Twitter数据分析,并且一直致力于在Python中应用词袋技术并且一直没有运气。 目前我已经能够通过一些预处理流式传输数据以存储在数据库中,然后我将推文导出到csv文件中,但在下一部分使用词袋进行机器学习时磕磕绊绊。
我已经尝试过关注better check the new Amdahl's Law re-formulation carefully ( implications on costs of going distributed or parallel )但是我没有成功,并且只是通过查看scikit或nltk文档就无法理解如何处理。任何人都可以建议我可以遵循的教程,以实现Python 3的单词包? 谢谢你的帮助
答案 0 :(得分:1)
所以scikit-learn的CountVectoriser是一个很好的起点。您需要创建一些固定大小的词汇表(从您的推文中收集的N个唯一词),以便您可以将每个推文表示为固定长度向量,其中向量中的每个位置代表词汇表中的特定单词,以及value是单词出现的次数。
使用纯Python,这将是:
首先通过推文
第二次通过相同的推文
您可以使用1或0表示是否存在单词而不是单词频率。看看有什么用。
但是,scikit-learn使这一切变得更容易。
我发现this tutorial也可能有所帮助。