Question

我正在尝试训练SVM分类器，但我对ML很新。我知道这里有两个步骤：参数调整和特征工程，但哪一个先行？似乎this回答建议首先进行特征工程，是否正确？如果它是正确的，我是否随机选择一组SVM参数来进行特征工程？

Answer 1

您必须先执行功能工程/功能选择。在调整值之前，您必须知道将使用哪些变量。

至于你如何进行特征选择，这是另一个问题。您可以使用Principal Component Analysis，Singular Value Decomposition或许多其他技术。这是一个活跃的研究领域，如果您只是在Google上搜索，您会发现很多描述各种技术的论文。

This是我最近阅读的一篇论文，它使用基于熵的技术进行特征选择。

Answer 2

SVM（以及大多数其他ML方法）以二维数字特征矩阵的形式接受输入，因此您必须将数据转换为该格式甚至使用SVM。因此，虽然您希望在参数调整之前进行某些功能工程，以确认您的管道按照您认为应该的方式工作，但您不一定需要将两者完全分开。

如果您使用自动或参数化的特征工程方法，那么该方法可以成为超参数调整过程的一部分。

实现此目的的一种方法是使用Featuretools，一个Python中的开源自动化功能工程库，以及Scikit-Learn等机器学习库。

这是一个使用Featuretools中的演示数据集的管道，它在同一步骤中执行超参数调整和特征工程：

import featuretools as ft
from featuretools.primitives import (Sum, Max, Mean, Min,
                                     Percentile, Day, Weekend, Weekday)
from featuretools.selection import remove_low_information_features
from itertools import combinations
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler, Imputer


retail_data = ft.demo.load_retail(nrows=1000)
# predict each customer's country
labels = LabelEncoder().fit_transform(retail_data['customers'].df['Country'])

def score_pipeline(max_depth, agg_primitives, trans_primitives, C):
    feature_matrix, feature_defs = ft.dfs(entityset=retail_data,
                                          target_entity='customers',
                                          ignore_variables={'customers': ['Country']},
                                          max_depth=max_depth,
                                          agg_primitives=agg_primitives,
                                          trans_primitives=trans_primitives,
                                          verbose=True)
    # one-hot encode to transform to numeric
    feature_matrix, feature_defs = ft.encode_features(feature_matrix, feature_defs)
    # remove feature with all nans or all single value
    feature_matrix, feature_defs = remove_low_information_features(feature_matrix, feature_defs)
    # impute missing values
    imputer = Imputer(missing_values='NaN', strategy='mean', axis=0)
    feature_matrix = imputer.fit_transform(feature_matrix)

    model = SVC(C=C, verbose=True)
    X_train, X_test, y_train, y_test = train_test_split(feature_matrix,
    labels, test_size=0.1)
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    return f1_score(y_test, predictions, average='macro')

poss_agg_primitives = [Sum, Max, Mean, Min]
poss_trans_primitives = [Percentile, Day, Weekend, Weekday]
scores = []
for agg_primitives in combinations(poss_agg_primitives, 2):
    for trans_primitives in combinations(poss_trans_primitives, 2):
        for max_depth in range(1, 3):
            for C in [0.01, 0.1, 1.0]:
                score = score_pipeline(max_depth,
                                       agg_primitives,
                                       trans_primitives,
                                       C)
                scores.append(score)
print("Best score: {:.3f}".format(max(scores)))

Answer 3

功能工程应首先进行。遵循以下顺序

缺失值估算
变量编码
处理异常值
用于选择特征的线性模型假设
选择主要与标签相关的功能

这些是要素工程的一些基本步骤。除此之外，这很大程度上取决于您正在处理哪种数据集

Answer 4

所有基于机器的模型的性能取决于我们如何从所有可用数据集中创建独特功能

特征工程
然后检查特征之间的相关性以删除相关的特征
参数调整

Answer 5

您需要在训练模型之前创建特征和训练集，因此特征工程的第一次迭代必须在参数调整之前进行。然而，特征工程和参数调整都是迭代过程。例如，您可以使用您的第一个版本的特征来使用网格搜索（强力搜索最佳参数）来训练模型，然后您可以使用这些参数来尝试特征的不同排列。例如，您可以尝试使用特征 X 的一些变体，例如 log(X)、sqrt(X)、X^2 等，看看这是否会给您带来更好的结果。

我的典型流程是：

功能头脑风暴
功能创建
相关性分析
功能选择
特征转换（使它们与目标尽可能线性相关）
特征缩放到 1 均值单位方差
网格搜索以查找算法的初始超参数
用于测试替代特征转换的迭代过程
用于测试更多微调超参数的迭代过程

参数调整和特征工程，哪一个应该是第一个？

5 个答案:

所有基于机器的模型的性能取决于我们如何从所有可用数据集中创建独特功能