在支持向量机(以下简称SVM)的核函数中,高斯核(以下简称RBF)是最常用的,从理论上讲,RBF一定不比线性核函数差,但是在实际应用中,却面临着几个重要的超参数的调优问题。如果调的不好,可能比线性核函数还要差。所以我们实际应用中,能用线性核函数得到较好效果的都会选择线性核函数。如果线性核不好,我们就需要使用RBF,在享受RBF对非线性数据的良好分类效果前,我们需要对主要的超参数进行选取。本文我们就对scikit-learnSVM RBF的调参做一个小结。

1 SVM RBF 主要超参数概述

如果是SVM分类模型,这两个超参数分别是惩罚系数和RBF核函数的系数当然如果是nu-SVC的话,惩罚系数C代替为分类错误率上限nu, 由于惩罚系数C和分类错误率上限nu起的作用等价,因此本文只讨论带惩罚系数C的分类SVM**

1.1 SVM分类模型

###(1) 惩罚系数

  • 惩罚系数C即上一篇里讲到的松弛变量ξ的系数。它在优化函数里主要是平衡支持向量的复杂度和误分类率这两者之间的关系,可以理解为正则化系数

  • 惩罚系数C比较大时,我们的损失函数也会越大,这意味着我们不愿意放弃比较远的离群点。这样我们会有更加多的支持向量,也就是说支持向量和超平面的模型也会变得越复杂,也容易过拟合

  • 惩罚系数C比较小时,意味我们不想理那些离群点,会选择较少的样本来做支持向量,最终的支持向量和超平面的模型也会简单。scikit-learn中默认值是1。


另一个超参数是RBF核函数的参数。回忆下RBF 核函数


  • γ比较小时,单个样本对整个分类超平面的影响比较小,不容易被选择为支持向量

  • γ比较大时,单个样本对整个分类超平面的影响比较大,更容易被选择为支持向量**,或者说整个模型的支持向量也会多。scikit-learn中默认值是1/n_features**



  • C比较大、 γ比较大时,会有更多的支持向量,模型会比较复杂,较容易过拟合
  • C比较小、γ比较小时,模型会变得简单,支持向量的个数会少

1.2 SVM回归模型


  • 对于惩罚系数C和RBF核函数的系数γ,回归模型和分类模型的作用基本相同。

  • 对于损失距离度量ϵ,它决定了样本点到超平面的距离损失.ϵ比较大时,损失较小,更多的点在损失距离范围之内,模型较简单;ϵ比较小时,损失函数会较大,模型也会变得复杂scikit-learn中默认值是0.1


  • C比较大、 γ比较大、ϵ比较小时,会有更多的支持向量,模型会比较复杂,容易过拟合一些;

  • C比较小、γ比较小、ϵ比较大时**,模型会变得简单,支持向量的个数会少

2 SVM RBF 主要调参方法


GridSearchCV类用于SVM RBF调参时要注意的参数有:

  • 1. estimator :即模型,此处就是带高斯核的SVC或者SVR
  • 2. param_grid:即要调参的参数列表。 比如用SVC分类模型的话,那么param_grid可以定义为{"C":[0.1, 1, 10], "gamma": [0.1, 0.2, 0.3]},这样就会有9种超参数的组合来进行网格搜索,选择一个拟合分数最好的超平面系数
  • 3. cv: S折交叉验证的折数,即将训练集分成多少份来进行交叉验证。默认是3如果样本较多的话,可以适度增大cv的值。


下面用一个具体的分类例子来观察SVM RBF调参的过程。

3 SVM RBF分类调参的例子

import numpy as np  
import matplotlib.pyplot as plt  
from sklearn import datasets, svm  
from sklearn.svm import SVC  
from sklearn.datasets import make_moons, make_circles, make_classification


X, y = make_circles(noise=0.2, factor=0.5, random_state=1)  
from sklearn.preprocessing import StandardScaler  
X = StandardScaler().fit_transform(X)


from matplotlib.colors import ListedColormap  
cm = plt.cm.RdBu  
cm_bright = ListedColormap(['#FF0000', '#0000FF'])  
ax = plt.subplot()  
ax.set_title("Input data")  
ax.scatter(X[:, 0], X[:, 1], c=y, cmap=cm_bright)  

现在要对这个数据集进行SVM RBF分类了,分类时使用了网格搜索,在C=(0.1,1,10)gamma=(1, 0.1, 0.01)形成的9种情况中选择最好的超参数,使用4折交叉验证。这里只是一个例子,实际运用中,可能需要更多的参数组合来进行调参。

from sklearn.model_selection import GridSearchCV  
grid = GridSearchCV(SVC(), param_grid={"C":[0.1, 1, 10], "gamma":[1, 0.1, 0.01]}, cv=4)  
grid.fit(X, y)  
print("The best parameters are %s with a score of %0.2f" %(grid.best_params_, grid.best_score_))


The best parameters are {'C': 10, 'gamma': 0.1} with a score of 0.91

也就是说,通过网格搜索,在给定的9组超参数中,C=10Gamma=0.1 分数最高,这就是最终的参数候选。

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1  
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1  
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))  
for i, C in enumerate((0.1, 1, 10)):  
    for j, gamma in enumerate((1, 0.1, 0.01)):  
        clf = SVC(C=C, gamma=gamma)  
        clf.fit(X, y)  
        Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])  
        Z = Z.reshape(xx.shape)  
        plt.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.8)  
        plt.scatter(X[:,0], X[:, 1], c=y, cmap=plt.cm.coolwarm)  
        plt.xlim(xx.min(), xx.max())  
        plt.ylim(yy.min(), yy.max())  
        plt.xlabel("gamma="+str(gamma)+" C="+str(C))  

4 SVM算法库其他调参要点






