特征选择与特征提取
第五章第五章 特征选择与特征提取特征选择与特征提取 5.15.1 问题的提出问题的提出 前面主要介绍的是各种分类器的设计方法, 实际上我们已经完全可以解决模式识别的问 题了。然而在实际应用中,在分类器设计之前,往往需要对抽取出的特征进行一下处理,争 取尽量减小特征的维数。在实践中我们发现,特征的维数越大,分类器设计的难度也越大, 一维特征的识别问题最容易解决, 我们只要找到一个阈值t,大于t的为一类,小于t的为一 类。同时特征维数越大,要求的训练样本数量越多,例如在一维的情况下,10 个训练样本 就可以比较好的代表一个类别了,而在10 维空间中,10 个训练样本则是远远不够的。这一 章中我们就来介绍一下减小特征维数的方法。 一般来说模式识别系统的输入是传感器对实物或过程进行测量所得到的一些数据, 其中 有一些数据直接可以作为特征, 有一些数据经过处理之后可以作为特征, 这样的一组特征一 般称为原始特征。 在原始特征中并不一定每个特征都是有用的, 比如在识别苹果和橙子的系 统中,我们可以抽取出的特征很多, (体积,重量,颜色,高度,宽度,最宽处高度),同样 还有可能抽取出其它更多的特征。 在这些特征中对分类有用的是 (颜色, 高度, 最宽处高度) , 其它特征对识别意义不大, 应该去除掉。这样的过程称为是特征选择, 也可以称为是特征压 缩。 特征选择可以描述成这样一个过程,原始特征为N维特征X X x 1,x2 , 选择出M个特征构成新的特征矢量Y x i1 ,x i1 , ,x N ,从中 T ,x iM T ,M N。 同时,特征矢量的每一个分量并不一定是独立的, 它们之间可能具有一定的相关性, 比 如说高度和最宽处的高度,高度值越大, 最宽处的高度值也越大,它们之间具有相关性,我 们可以通过一定的变换消除掉这种相关性,比如取一个比值最宽处的高度/高度。这样的 过程称为特征提取。 特征提取可以描述为这样一个过程,对特征矢量 X X x 1,x2 ,,x N 施行变换 , y M 。 T T y i h i X X,i 1,2, ,M,M N,产生出降维的特征矢量Y y 1, y2 , 在一个实际系统的设计过程中, 特征的选择和提取过程一般都需要进行, 首先进行特征 选择,去除掉无关特征, 这些特征实践上根本就不需要抽取出来, 这部分传感器根本不需要 安装,这样也可以减小系统的的成本。然后进行特征提取,降低特征的维数。然后利用降维 之后的样本特征来设计分类器。 5.25.2 模式类别的可分性判据模式类别的可分性判据 在讨论特征选择和特征压缩之前, 我们先要确定一个选择和提取的原则。 对一个原始特 43 征来说, 特征选择的方案很多, 从N维特征种选择出M个特征共有C N M N 中 M N M 选法,其中哪一种方案最佳,则需要有一个原则来进行指导。 同样,特征的压缩实际上是要 找到M个N元函数,N元函数的数量是不可数的,这也要有一个原则来指导找出M个最 佳的N元函数。 我们进行特征选择和特征提取的最终目的还是要进行识别, 因此应该是以对识别最有利 原则, 这样的原则我们称为是类别的可分性判据。 用这样的可分性判据可以度量当前特征维 数下类别样本的可分性。可分性越大,对识别越有利,可分性越小,对识别越不利。 人们对的特征的可分性判据研究很多,然而到目前为止还没有取得一个完全满意的结 果,没有哪一个判据能够完全度量出类别的可分性。 下面介绍几种常用的判据, 我们需要根 据实际问题,从中选择出一种。 一般来说,我们希望可分性判据满足以下几个条件 1.与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小; 2.当特征独立时有可加性,即 J ij x 1,x2 ,,x N J ij x k k1 N J ij 是第i类和第j类的可分性判据,J ij 越大,两类的可分程度越大, x 1,x2 ,,x N 为N 维特征; 3.应具有某种距离的特点 J ij 0,当i j时; J ij 0,当i j时; J ij J ji ; 4.单调性,加入新的特征后,判据不减小 J ij x 1,x2 ,,x N J ij x 1,x2 ,,x N ,x N1 。 但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件, 只能满足一个或几个 条件。 一、基于几何距离的可分性判据一、基于几何距离的可分性判据 在介绍这一类判据之前,先来看一下各种几何距离的定义。 1. 1.点与点的距离点与点的距离 这是我们前面已经介绍过的一种距离,可以有多种形式,如欧氏距离、街市距离、 马氏距离等,特征矢量X X和Y Y之间的距离可以表示为 dX X,Y YX XY YTX XY Y (欧氏距离) 2. 2.点与类别之间的距离点与类别之间的距离 这也是我们前面定义过的一种距离度量, 常用的有平均样本法、 平均距离法、最 44 近距离法,K-近邻法等。特征矢量X X与 i 类别之间距离的平方可以表示为 1 d X X, i N i 2d X X,X X (平均距离法) 2i k k1 Ni 其中X X 1 ,X X 2 , iii 为 i 类中的样本,N i 为 i 类别中的样本数。,X X Ni 3. 3.类内距离类内距离 设 i 了由样本集 X X 1 ,X X 2 , 的类内均方距离为 ii i i ,X X N ,样本的均值矢量为,则由样本集定义 mm i 1 d i N i N i 2d X X ,X X 2i k i l k1 l1 NiNi 当取欧氏距离时有 1 d i N i 2X X k1 Ni i k mmiX X mm T i k i 4. 4.类别之间的距离类别之间的距离 在第二章中对类别之间的距离也做过定义, 包括最短距离法,最长距离法,类平均 距离法等。i类与 j 类之间的距离可以表示为 1 d i , j N i N j dX X ,X X (平均距离法) i k j l k1 l1 Ni N j 当取欧氏距离时,可定义两类之间的均方距离 1 d2 i , j N i N j X X k1 l1 Ni N j i k X X l jX X X X T i k j l 有了距离度量之后,我们就可以在此基础上定义可分性测度了。 一般来讲,当各个类别 的类内距离越小时可分性越强, 而类间距离越大时,可分性越强。因此可以有以各类样本之 间的平均距离作为判据 M1M J d X XP i P j d i , j 2 i1j1 J d X X所反映的主要还是类别之间的分离程度,对类内的聚集程度反映不够。通常我 们采用跟一般的矩阵形式来构造可分性判据。 1. 1