xlsx文件的Readlines函数工作正常

时间:2016-09-01 13:24:46

标签: python xlsx readlines doc2vec

目标是情绪分类。步骤是打开3个xlsx文件,读取它们,使用gensim.doc2vec方法处理并使用SGDClassificator进行分类。试着重复this code on doc2vec。 Python 2.7

with open('C:/doc2v/trainpos.xlsx','r') as infile:
    pos_reviews = infile.readlines()
with open('C:/doc2v/trainneg.xlsx','r') as infile:
    neg_reviews = infile.readlines()
with open('C:/doc2v/unsup.xlsx','r') as infile:
    unsup_reviews = infile.readlines()

但事实证明,结果列表不是预期的:

print 'length of pos_reviews is %s' % len(pos_reviews)
>>> length of pos_reviews is 1

这些文件相应包含18,1221和2203个原始文件。我认为列表将具有相同数量的元素。

下一步是连接所有句子。

y = np.concatenate((np.ones(len(pos_reviews)), np.zeros(len(neg_reviews))))
x_train, x_test, y_train, y_test = train_test_split(np.concatenate((pos_reviews, neg_reviews)), y, test_size=0.2)

这导致x-train,x-test是句子列表时的情况

y_train = [0.]
y_test = [1.]

在这个分割之后,每个句子都有一个标签:

def labelizeReviews(reviews, label_type):
labelized = []
for i,v in enumerate(reviews):
    label = '%s_%s'%(label_type,i)
    labelized.append(LabeledSentence(v, [label]))
return labelized
x_train = labelizeReviews(x_train, 'TRAIN')
x_test = labelizeReviews(x_test, 'TEST')
unsup_reviews = labelizeReviews(unsup_reviews, 'UNSUP')

the numpy documentation所述,数组的大小应相等。但是当我将较大的文件减少到18行时,没有任何变化。 当我在论坛上搜索时,没有人有类似的错误。我已经打破了我的错误以及如何解决它。谢谢你的帮助!

1 个答案:

答案 0 :(得分:0)

通常,您无法使用readlinesread等方法将Microsoft Excel文件作为文本文件读取。您应该先将文件转换为另一种格式(好的解决方案是.csv,可以通过csv模块重新编译)或使用特殊的python模块,如pyexcelopenpyxl来直接读取.xlsx文件