如何训练大型数据集进行分类

时间:2015-01-14 22:54:22

标签: python classification nltk svm naivebayes

我有一份1600000条推文的培训数据集。我该如何训练这类巨大的数据。

我尝试使用nltk.NaiveBayesClassifier。如果我跑步,训练需要5天以上。

def extract_features(tweet):

    tweet_words = set(tweet)
    features = {}
    for word in featureList:
        features['contains(%s)' % word] = (word in tweet_words)

    return features


training_set = nltk.classify.util.apply_features(extract_features, tweets)

NBClassifier = nltk.NaiveBayesClassifier.train(training_set)  # This takes lots of time  

我该怎么办?

我需要使用SVM和朴素的bayes对我的数据集进行分类。

我想使用的数据集:Link

示例(培训数据集):

Label     Tweet
0         url aww bummer you shoulda got david carr third day
4         thankyou for your reply are you coming england again anytime soon

示例(测试数据集):

Label     Tweet
4         love lebron url
0         lebron beast but still cheering the til the end
^
I have to predict Label 0/4 only

如何有效地训练这个庞大的数据集?

3 个答案:

答案 0 :(得分:4)

在加快培训之前,我个人确保你真的需要。虽然不能直接回答您的问题,但我会尝试提供您可能会或可能不会丢失的不同角度(从您的初始帖子中很难说出来)。

拿走,例如卓越的实施作为基准。 1.6Mio训练和500个具有3个特征的测试样本产生0.35的准确度。

使用完全相同的设置,您可以在不失准确性的情况下获得低至50k的训练样本,事实上准确度将略微上升 - 可能是因为您对这么多示例过度拟合(您可以检查这个以较小的样本大小运行他的代码)。我很确定在这个阶段使用神经网络会给这种设置带来可怕的准确性(虽然这不是我的观点,但SVM可以通过调整来克服过度拟合)。

您在初帖中写道,您有55k功能(由于某种原因您删除了哪些功能?)。此数字应与您的训练集大小相关联。由于您没有指定功能列表,因此无法为您提供正确的工作模型或测试我的假设。

但是,我强烈建议您减少训练数据作为第一步,并查看a)您的表现如何以及b)在何时可能发生过度拟合。我还会将测试尺寸调整为更大的尺寸。 500-1.6Mio是一组奇怪的分裂。尝试80/20%进行火车/测试。 第三步检查功能列表大小。它代表你需要什么?如果该列表中存在不必要/重复的功能,则应考虑修剪。

最后的想法是,如果你回到更长的培训规模(例如,因为你决定实际上需要比现在提供的更多的数据),考虑慢学习是否真的是一个问题(除了测试你的模型)。许多最先进的分类器使用GPU计算训练数天/周。在这种情况下,培训时间并不重要,因为他们只培训一次,并且可能只在他们“上线”时用小批量数据更新。

答案 1 :(得分:4)

根据关于特征提取的精心提议,您可以使用scikit库中的tfidvectorizer从推文中提取重要的单词。使用默认配置,再加上一个简单的LogisticRegression,它给我0.8精度。希望有所帮助。 以下是如何使用它来解决问题的示例:

    train_df_raw = pd.read_csv('train.csv',header=None, names=['label','tweet'])
test_df_raw = pd.read_csv('test.csv',header=None, names=['label','tweet'])
train_df_raw =  train_df_raw[train_df_raw['tweet'].notnull()]
test_df_raw =  test_df_raw[test_df_raw['tweet'].notnull()]
test_df_raw =  test_df_raw[test_df_raw['label']!=2]

y_train = [x if x==0 else 1 for x in train_df_raw['label'].tolist()]
y_test = [x if x==0 else 1 for x in test_df_raw['label'].tolist()]
X_train = train_df_raw['tweet'].tolist()
X_test = test_df_raw['tweet'].tolist()

print('At vectorizer')
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train)
print('At vectorizer for test data')
X_test = vectorizer.transform(X_test)

print('at Classifier')
classifier = LogisticRegression()
classifier.fit(X_train, y_train)

predictions = classifier.predict(X_test)
print 'Accuracy:', accuracy_score(y_test, predictions)

confusion_matrix = confusion_matrix(y_test, predictions)
print(confusion_matrix)

Accuracy: 0.8
[[135  42]
 [ 30 153]]

答案 2 :(得分:3)

我在这里有一个选择。我的机器花了3分钟(我真的应该换一个新的:P)。

macbook 2006
2 GHz Intel Core 2 Duo
2 GB DDR2 SDRAM

达到的准确度为:0.355421686747

我确定如果您调整矢量机器可以获得更好的效果。

首先,我更改了csv文件的格式,以便更轻松地导入。 我刚用逗号替换了第一个空格,可以在导入时用作分隔符。

cat testing.csv | sed 's/\ /,/' > test.csv
cat training.csv | sed 's/\ /,/' > train.csv

在python中,我使用pandas来读取csv文件和列表理解以提取功能。这比循环快得多。 之后我用sklearn训练支持向量机。

import pandas
from sklearn import svm
from sklearn.metrics import accuracy_score

featureList = ['obama','usa','bieber']

train_df = pandas.read_csv('train.csv',sep=',',dtype={'label':int, 'tweet':str})
test_df = pandas.read_csv('test.csv',sep=',',dtype={'label':int, 'tweet':str})

train_features = [[w in str(tweet) for w in featureList] for tweet in train_df.values[:,1]]
test_features = [[w in str(tweet) for w in featureList] for tweet in test_df.values[:,1]]
train_labels = train_df.values[:,0]
test_labels = test_df.values[:,0]

clf = svm.SVC(max_iter=1000)
clf.fit(train_features, train_labels)
prediction = clf.predict(test_features)

print 'accuracy: ',accuracy_score(test_labels.tolist(), prediction.tolist())