我有一个关于编程逻辑的问题,以及做我想做的最聪明的方法。
我想做一个简单的" Twitter情绪分类,要么将推文分类为正面还是负面(也许是中立的,还不确定)。我想用tweepy听Twitter流,并将传入的推文存储在数据库中。我在想,因为Twitter的ToS禁止存储推文,我希望在收听流时处理推文。意思是,我想小写它们,删除添加。空白,删除一些单词等等,我需要对它们进行分类。然后使用预先训练的模型对每条推文进行分类,然后仅在数据库中存储推文ID和推文的情绪,而不是推文。
现在我担心:在每个关于scikit学习分类器的教程中,总会有多个文档被分类。 .predict函数还需要一个类似数组的稀疏矩阵" http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.predict
那么甚至可以一次只对一条推文进行分类吗?另一个选择是忽略ToS并将推文存储在数据库中,在分析结束时进行所有处理和分类(有趣的是观察更长时间内的情绪,甚至监视它不断)然后删除推文。
最聪明的方法是什么?我对编程很新,所以我想学习逻辑。