Pandas read_csv将数据加载到错误的列中

时间:2017-09-07 10:05:00

标签: python pandas csv

我有一个包含四列的CSV文件。第一列中的每一行都包含一条推文,第二列包含相应的标签(其中一个字母--A / N / Q / S - 分别代表可操作/不可操作/查询/建议)。所以第二列基本上包含目标类。

第三和第四列尚不相关。

我正在实施决策树分类器。

问题在于分类器还将一些推文视为标签。所以在预测输出中,虽然我应该只获得A,N,Q或S,但我也会收到一些推文和这些标签。

以下是分类器代码dtree_csv.py

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

try:
    df = pd.read_csv('tweet-class1.csv', header=None, sep=',',names=['tweets', 'class', 'dept', 'reply'],encoding='UTF-7',skipinitialspace=True)   # columns names if no header

    vect = TfidfVectorizer()
    x = vect.fit_transform(df['tweets'].values.astype('U')) 
    y = df['class']

    SIZE=50
    STEP=.02

    train,test,train_lab,test_lab=train_test_split(x,y,test_size=.15,random_state=100)

    clf=DecisionTreeClassifier()
    clf.fit(train,train_lab)

    output = clf.predict(test)
    for row in output:
        print row
    print accuracy_score(test_lab,output)

except UnicodeDecodeError as e:
    print 'unicode error'

在运行dtree_csv.py时,这是我在终端上可以看到的输出。

Screenshot of the output

我尝试了很多东西:

  • 使用分隔符和分隔符的不同组合
  • 使用TSV代替CSV
  • 将原始.xls文件重新导入CSV
  • 在UTF-7和UTF-8之间切换编码
  • 手动扫描CSV文件以查找错误推文

似乎没什么用。请告诉我我错过了什么。

1 个答案:

答案 0 :(得分:0)

我冒昧地猜测并说你的一些推文包含逗号,而pandas错误地将这些条目划分到错误的列中。

你可以做的一些事情

  1. 使用过滤器和df.isin

    删除所有此类列
    df = df[df['class'].isin(['A', 'N', 'Q', 'S'])]
    
  2. 使用

    删除无关的NaN
    df.dropna(inplace=True)
    
  3. 另一种方法是手动更改CSV中的分隔符,或者清除有问题的有问题的推文。如果你能承受丢失一些数据,你应该放弃它。