我是python的新手。我有一个csv文件已清理推文。我想创建一些这些推文的单词。 我有以下代码,但它无法正常工作。
import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer
data = pd.read_csv(open("Twidb11.csv"), sep=' ')
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data.Text)
count_vect.vocabulary_
错误:
.ParserError:标记数据时出错。 C错误:预计19个字段 第5行,看到22
答案 0 :(得分:0)
我认为这是重复的。你可以看到答案here。有很多答案和评论。
所以,解决方案可以是:
data = pd.read_csv('Twidb11.csv', error_bad_lines=False)
或者:
df = pandas.read_csv(fileName, sep='delimiter', header=None)
“在上面的代码中,sep定义了你的分隔符和header = None告诉pandas你的源数据没有标题/列标题的行。所以文档说:”如果文件不包含标题行,那么你应该明确传递header = None“。在这种情况下,pandas会自动为每个字段{0,1,2,...}创建整数indeces。”