Question

我是python的新手。我有一个csv文件已清理推文。我想创建一些这些推文的单词。我有以下代码，但它无法正常工作。

import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer

data = pd.read_csv(open("Twidb11.csv"), sep=' ')
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data.Text)
count_vect.vocabulary_

错误：

.ParserError：标记数据时出错。 C错误：预计19个字段第5行，看到22

Answer 1

我认为这是重复的。你可以看到答案here。有很多答案和评论。

所以，解决方案可以是：

data = pd.read_csv('Twidb11.csv', error_bad_lines=False)

或者：

df = pandas.read_csv(fileName, sep='delimiter', header=None)

“在上面的代码中，sep定义了你的分隔符和header = None告诉pandas你的源数据没有标题/列标题的行。所以文档说：”如果文件不包含标题行，那么你应该明确传递header = None“。在这种情况下，pandas会自动为每个字段{0,1,2，...}创建整数indeces。”

如何在python中从csv文件创建一个单词包？

1 个答案: