如何在python中从csv文件创建一个单词包?

时间:2017-12-22 04:33:00

标签: python-2.7 machine-learning sentiment-analysis

我是python的新手。我有一个csv文件已清理推文。我想创建一些这些推文的单词。 我有以下代码,但它无法正常工作。

import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer

data = pd.read_csv(open("Twidb11.csv"), sep=' ')
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data.Text)
count_vect.vocabulary_

错误:

  

.ParserError:标记数据时出错。 C错误:预计19个字段   第5行,看到22

1 个答案:

答案 0 :(得分:0)

我认为这是重复的。你可以看到答案here。有很多答案和评论。

所以,解决方案可以是:

data = pd.read_csv('Twidb11.csv', error_bad_lines=False)

或者:

df = pandas.read_csv(fileName, sep='delimiter', header=None)

“在上面的代码中,sep定义了你的分隔符和header = None告诉pandas你的源数据没有标题/列标题的行。所以文档说:”如果文件不包含标题行,那么你应该明确传递header = None“。在这种情况下,pandas会自动为每个字段{0,1,2,...}创建整数indeces。”