如何标记大文本文件中的情感极性?

时间:2012-10-16 13:12:58

标签: python nltk tweets

需要一些帮助!对不起,如果这听起来很愚蠢。 我是python的新手,想尝试this示例....

但是标签是手工制作的,如果我有两个.txt文件(pos和neg),每个文件都有1000条推文,这很难做到。

使用上面的示例如何将其与文本文件一起使用?

2 个答案:

答案 0 :(得分:3)

如果我理解正确,你需要找到一种将文本文件读入Python对象的方法。

考虑到您有两个包含正样本和负样本(pos.txtneg.txt)的文本文件,每行有一条推文:

train_samples = {}

with file('pos.txt', 'rt') as f:
    for line in f.readlines():
        train_samples[line] = 'pos'

对于否定推文重复上述循环,您就可以填充train_samples

答案 1 :(得分:0)

你应该从numpy包中寻找genfromtxt函数:http://docs.scipy.org/doc/numpy/user/basics.io.genfromtxt.html

它返回一个矩阵,给定正确的参数(分隔符,换行符char,...)