我有一个包含四列的CSV文件。第一列中的每一行都包含一条推文,第二列包含相应的标签(其中一个字母--A / N / Q / S - 分别代表可操作/不可操作/查询/建议)。所以第二列基本上包含目标类。
第三和第四列尚不相关。
我正在实施决策树分类器。
问题在于分类器还将一些推文视为标签。所以在预测输出中,虽然我应该只获得A,N,Q或S,但我也会收到一些推文和这些标签。
以下是分类器代码:dtree_csv.py
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
try:
df = pd.read_csv('tweet-class1.csv', header=None, sep=',',names=['tweets', 'class', 'dept', 'reply'],encoding='UTF-7',skipinitialspace=True) # columns names if no header
vect = TfidfVectorizer()
x = vect.fit_transform(df['tweets'].values.astype('U'))
y = df['class']
SIZE=50
STEP=.02
train,test,train_lab,test_lab=train_test_split(x,y,test_size=.15,random_state=100)
clf=DecisionTreeClassifier()
clf.fit(train,train_lab)
output = clf.predict(test)
for row in output:
print row
print accuracy_score(test_lab,output)
except UnicodeDecodeError as e:
print 'unicode error'
在运行dtree_csv.py
时,这是我在终端上可以看到的输出。
我尝试了很多东西:
似乎没什么用。请告诉我我错过了什么。
答案 0 :(得分:0)
我冒昧地猜测并说你的一些推文包含逗号,而pandas
错误地将这些条目划分到错误的列中。
你可以做的一些事情
使用过滤器和df.isin
df = df[df['class'].isin(['A', 'N', 'Q', 'S'])]
使用
删除无关的NaN
行
df.dropna(inplace=True)
另一种方法是手动更改CSV中的分隔符,或者清除有问题的有问题的推文。如果你能承受丢失一些数据,你应该放弃它。