Question

我有一份1600000条推文的培训数据集。我该如何训练这类巨大的数据。

我尝试使用nltk.NaiveBayesClassifier。如果我跑步，训练需要5天以上。

def extract_features(tweet):

    tweet_words = set(tweet)
    features = {}
    for word in featureList:
        features['contains(%s)' % word] = (word in tweet_words)

    return features


training_set = nltk.classify.util.apply_features(extract_features, tweets)

NBClassifier = nltk.NaiveBayesClassifier.train(training_set)  # This takes lots of time

我该怎么办？

我需要使用SVM和朴素的bayes对我的数据集进行分类。

我想使用的数据集：Link

示例（培训数据集）：

Label     Tweet
0         url aww bummer you shoulda got david carr third day
4         thankyou for your reply are you coming england again anytime soon

示例（测试数据集）：

Label     Tweet
4         love lebron url
0         lebron beast but still cheering the til the end
^
I have to predict Label 0/4 only

如何有效地训练这个庞大的数据集？

Answer 1

在加快培训之前，我个人确保你真的需要。虽然不能直接回答您的问题，但我会尝试提供您可能会或可能不会丢失的不同角度（从您的初始帖子中很难说出来）。

拿走，例如卓越的实施作为基准。 1.6Mio训练和500个具有3个特征的测试样本产生0.35的准确度。

使用完全相同的设置，您可以在不失准确性的情况下获得低至50k的训练样本，事实上准确度将略微上升 - 可能是因为您对这么多示例过度拟合（您可以检查这个以较小的样本大小运行他的代码）。我很确定在这个阶段使用神经网络会给这种设置带来可怕的准确性（虽然这不是我的观点，但SVM可以通过调整来克服过度拟合）。

您在初帖中写道，您有55k功能（由于某种原因您删除了哪些功能？）。此数字应与您的训练集大小相关联。由于您没有指定功能列表，因此无法为您提供正确的工作模型或测试我的假设。

但是，我强烈建议您减少训练数据作为第一步，并查看a）您的表现如何以及b）在何时可能发生过度拟合。我还会将测试尺寸调整为更大的尺寸。 500-1.6Mio是一组奇怪的分裂。尝试80/20％进行火车/测试。第三步检查功能列表大小。它代表你需要什么？如果该列表中存在不必要/重复的功能，则应考虑修剪。

最后的想法是，如果你回到更长的培训规模（例如，因为你决定做实际上需要比现在提供的更多的数据），考虑慢学习是否真的是一个问题（除了测试你的模型）。许多最先进的分类器使用GPU计算训练数天/周。在这种情况下，培训时间并不重要，因为他们只培训一次，并且可能只在他们“上线”时用小批量数据更新。

Answer 2

根据关于特征提取的精心提议，您可以使用scikit库中的tfidvectorizer从推文中提取重要的单词。使用默认配置，再加上一个简单的LogisticRegression，它给我0.8精度。希望有所帮助。以下是如何使用它来解决问题的示例：

    train_df_raw = pd.read_csv('train.csv',header=None, names=['label','tweet'])
test_df_raw = pd.read_csv('test.csv',header=None, names=['label','tweet'])
train_df_raw =  train_df_raw[train_df_raw['tweet'].notnull()]
test_df_raw =  test_df_raw[test_df_raw['tweet'].notnull()]
test_df_raw =  test_df_raw[test_df_raw['label']!=2]

y_train = [x if x==0 else 1 for x in train_df_raw['label'].tolist()]
y_test = [x if x==0 else 1 for x in test_df_raw['label'].tolist()]
X_train = train_df_raw['tweet'].tolist()
X_test = test_df_raw['tweet'].tolist()

print('At vectorizer')
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train)
print('At vectorizer for test data')
X_test = vectorizer.transform(X_test)

print('at Classifier')
classifier = LogisticRegression()
classifier.fit(X_train, y_train)

predictions = classifier.predict(X_test)
print 'Accuracy:', accuracy_score(y_test, predictions)

confusion_matrix = confusion_matrix(y_test, predictions)
print(confusion_matrix)

Accuracy: 0.8
[[135  42]
 [ 30 153]]

Answer 3

我在这里有一个选择。我的机器花了3分钟（我真的应该换一个新的：P）。

macbook 2006
2 GHz Intel Core 2 Duo
2 GB DDR2 SDRAM

达到的准确度为：0.355421686747

我确定如果您调整矢量机器可以获得更好的效果。

首先，我更改了csv文件的格式，以便更轻松地导入。我刚用逗号替换了第一个空格，可以在导入时用作分隔符。

cat testing.csv | sed 's/\ /,/' > test.csv
cat training.csv | sed 's/\ /,/' > train.csv

在python中，我使用pandas来读取csv文件和列表理解以提取功能。这比循环快得多。之后我用sklearn训练支持向量机。

import pandas
from sklearn import svm
from sklearn.metrics import accuracy_score

featureList = ['obama','usa','bieber']

train_df = pandas.read_csv('train.csv',sep=',',dtype={'label':int, 'tweet':str})
test_df = pandas.read_csv('test.csv',sep=',',dtype={'label':int, 'tweet':str})

train_features = [[w in str(tweet) for w in featureList] for tweet in train_df.values[:,1]]
test_features = [[w in str(tweet) for w in featureList] for tweet in test_df.values[:,1]]
train_labels = train_df.values[:,0]
test_labels = test_df.values[:,0]

clf = svm.SVC(max_iter=1000)
clf.fit(train_features, train_labels)
prediction = clf.predict(test_features)

print 'accuracy: ',accuracy_score(test_labels.tolist(), prediction.tolist())

如何训练大型数据集进行分类

3 个答案: