统计学聚类分析【PPT课件】

2020-09-26 11:20:42 本页面

【导读】物以类聚、人以群分;如要想把中国的县分类,就有多种方法。土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基。既可以用某一项来分类,也可以同时考虑。多项指标来分类。于对数据中的行分类)。当然,不一定事先假定有多少类,完。本章要介绍的分类的方法称为聚类分。它们在数学上是无区别的。16种饮料的热量、咖啡因、钠及价格四种变量。如果想要对100个学生进行分类,线上形成100个点。接近的点放到一类。如果还知道他们的物理成绩,这样。三维或者更高维的情况也是类似;这就是四维空间点的问题。按照远近程度来聚类需要明确两。离,一个是类和类之间的距离。点间距离有很多定义方式。单的是歐氏距离。当然还有一些和距离相反但起同。样作用的概念,比如相似性等,由一个点组成的类是最基本的类;如。软件的选项实现的。当变量的测量值相差悬殊时,要先进行标准化.如R为极差,如此叠代下去,直到达到停止叠代的。这样就可以得到最后的三类的中心以及每

文章介绍图

  

【正文】 统计学
─从数据到结论
第十一章聚类分析
分类
物以类聚、人以群分;
但根据什么分类呢?
如要想把中国的县分类,就有多种方法
可以按照自然条件来分,比如考虑降水、
土地、日照、湿度等,
也可考虑收入、教育水准、医疗条件、基
础设施等指标;
既可以用某一项来分类,也可以同时考虑
多项指标来分类。
聚类分析
对一个数据,既可以对变量(指标)进行
分类(相当于对数据中的列分类),也可
以对观测值(事件,样品)来分类(相当
于对数据中的行分类)。
当然,不一定事先假定有多少类,完
全可以按照数据本身的规律来分类。
本章要介绍的分类的方法称为聚类分
析(clusteranalysis)。对变量的聚
类称为R型聚类,而对观测值聚类称为
Q型聚类。它们在数学上是无区别的。
饮料数据()
16种饮料的热量、咖啡因、钠及价格四种变量

如果想要对100个学生进行分类,
而仅知道他们的数学成绩,则只好
按照数学成绩分类;这些成绩在直
线上形成100个点。这样就可以把
接近的点放到一类。
如果还知道他们的物理成绩,这样
数学和物理成绩就形成二维平面上
的100个点,也可以按照距离远近
来分类。

三维或者更高维的情况也是类似;
只不过三维以上的图形无法直观地
画出来而已。
在饮料数据中,每种饮料都有四个
变量值。这就是四维空间点的问题
了。
两个距离概念
按照远近程度来聚类需要明确两
个概念:一个是点和点之间的距
离,一个是类和类之间的距离。
点间距离有很多定义方式。最简
单的是歐氏距离。
当然还有一些和距离相反但起同
样作用的概念,比如相似性等,
两点越相似度越大,就相当于距
离越短。
两个距离概念
由一个点组成的类是最基本的类;如
果每一类都由一个点组成,那么点间
的距离就是类间距离。但是如果某一
类包含不止一个点,那么就要确定类
间距离,
类间距离是基于点间距离定义的:比
如两类之间最近点之间的距离可以作
为这两类之间的距离,也可以用两类
中最远点之间的距离或各类的中心之
间的距离来作为类间距离。
两个距离概念
在计算时,各种点间距离和
类间距离的选择是通过统计
软件的选项实现的。不同的
选择的结果会不同,但一般
不会差太多。
向量x=(x1,…,xp)与y=(y1,…,yp)之间的距离或相似系数:
2()
ii
i
xy
欧氏距离:
Euclidean平方欧氏距离:SquaredEuclidean2()
ii
i
xy
夹角余弦(相似系数1):
cosine
22
(1)cos
ii
i
xyxy
ii
ii
xy
C
xy


Pearsoncorrelation
(相似系数2):
Chebychev:Maxi|xi-yi|
Block(绝对距离):Si|xi-yi|
Minkowski:1
()
qq
ii
i
xy


当变量的测量值相差悬殊时,要先进行标准化.如R为极差,
s为标准差,则标准化的数据为每个观测值减去均值后再
除以R或s.当观测值大于0时,有人采用Lance和Williams的
距离
||1ii
iii
xy
pxy


22
()()
(2)
()()
ii
i
xyxy
ii
ii
xxyy
Cr
xxyy





类Gp与类Gq之间的距离Dpq
(d(xi,xj)表示点xi∈Gp和xj∈Gq之间的距离)
min(,)pqijDdxx
最短距离法:最长距离法:
重心法:
离差平方和:
(Wald)
类平均法:
(中间距离,可变平均法,可变法等可参考各书).
在用欧氏距离时,有统一的递推公式
12
121212
()'(),()'(),
()'()
ipjq
kpq
ipipjqjq
xGxG
kipq
xGG
DxxxxDxxxx
DxxxxDDDD







max(,)pqijDdxx
min(,)pqpqDdxx
12
1(,)
ipjq
pqij
xGxG
Ddxx
nn

最短距离(NearestNeighbor)
x21•
x12•x22•
x11•13d
最长距离(FurthestNeighbor)



x11•
x21•

••
12d






9
91dd
组间平均连接(Between-groupLinkage)
组内平均连接法(Within-groupLinkage)
123456
6
dddddd
x21•
x12•x22•
x11•
重心法(Centroidclustering):均值点的距离
••11,xy22,xy
离差平方和法连接
2,4
1,5
6,5
22(23)(43)2
22(65.5)(55.5)0.5
22(13)(53)8
红绿(2,4,6,5)
离差平方和增加-=
黄绿(6,5,1,5)
离差平方和增加-=
黄红(2,4,1,5)10-10=0
故按该方法的连接和黄红首先连接。
有了上面的点间距离和类
间距离的概念,就可以介
绍聚类的方法了。这里介
绍两个简单的方法。
事先要确定分多少类:k-均值聚类
前面说过,聚类可以走着瞧,不一定
事先确定有多少类;但是这里的k-均值
聚类(k-meanscluster,也叫快速聚
类,quickcluster)却要求你先说好
要分多少类。看起来有些主观,是吧!
假定你说分3类,这个方法还进一步要
求你事先确定3个点为“聚类种
子”(SPSS软件自动为你选种子);也
就是说,把这3个点作为三类中每一类
的基石。
事先要确定分多少类:k-均值聚类
然后,根据和这三个点的距离远近,
把所有点分成三类。再把这三类的中
心(均值)作为新的基石或种子(原来
“种子”就没用了),再重新按照距离
分类。
如此叠代下去,直到达到停止叠代的
要求(比如,各类最后变化不大了,
或者叠代次数太多了)。显然,前面
的聚类种子的选择并不必太认真,它
们很可能最后还会分到同一类中呢。
下面用饮料例的数据来做k-均值聚类。
•假定要把这16种饮料分成3类。利用SPSS,只叠
代了三次就达到目标了(计算机选的种子还可
以)。这样就可以得到最后的三类的中心以及每
类有多少点
FinalClusterCenters
203.1033.71107.34
1.654.163.49
13.0510.068.76
3.152.692.94
CALORIE
CAFFEINE
SODIUM
PRICE
123
Cluster
NumberofCasesineachCluster
2.000
7.000
7.000
16.000
.000
1
2
3
Cluster
Valid
Missing
根据需要,可以输出哪些点分在一起。
结果是:第一类为饮料1、10;第二类为
饮料2、4、8、11、12、13、14;第三类
为剩下的饮料3、5、6、7、9、15、16。
SPSS实现(聚类分析)
K-均值聚类
以数据,在SPSS中选择
Analyze-Classify-K-MenasCluster,
然后把calorie(热量)、caffeine(咖啡
因)、sodium(钠)、price(价格)选
入Variables,
在NumberofClusters处选择3(想要分
的类数),
如果想要知道哪种饮料分到哪类,则选
Save,再选ClusterMembership等。
注意k-均值聚类只能做Q型聚类,如要做R
型聚类,需要把数据阵进行转置。
事先不用确定分多少类:分层聚类
另一种聚类称为分层聚类或系统聚类
(hierarchicalcluster)。开始时,
有多少点就是多少类。
它第一步先把最近的两类(点)合并
成一类,然后再把剩下的最近的两类
合并成一类;
这样下去,每次都少一类,直到最后
只有一大类为止。越是后来合并的类,
距离就越远。
•对于饮料聚类。SPSS输出为
AgglomerationSchedule
51513.130007
41325.970003
2436.485028
6969.1300010
110102.6300015
811150.330008
516198.3751011
28319.7783612
1214322.5400012
36458.7950413
571006.8637013
2121435.0768914
351755.654101114
236287.175121315
1219406.6845140
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Cluster1Cluster2
ClusterCombined
CoefficientsCluster1Cluster2
StageClusterFirst
Appears
NextStage
VerticalIcicle
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXX
Numberofclusters
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7
16
15
5963
14
12
11
8
13
42
10
1
Case
“冰柱图”(icicle)
例:5个样品距离阵
令Dk为系统聚类法种第k次合并时的
距离,如{Dk}为单调的,则称具有单调
性.前面只有重心和中间距离法不具有
单调性.
0
0
70
()160
9380
85740
ij
Dd








步骤:最短距离法最长距离法
阶段bk(第k阶段类的集合)DkDk
D(0)(1)(2)(3)(4)(5)00
D(1)(1,3)(2)(4)(5)11
D(2)(1,3)(2,4)(5)33
D(3)(1,3)(2,4,5)45
D(4)(1,3,2,4,5)69
注:最短和最长距离法结果一样(一般不一定一样)
聚类要注意的问题
聚类结果主要受所选择的变量影响。
如果去掉一些变量,或者增加一些
变量,结果会很不同。
相比之下,聚类方法的选择则不那
么重要了。因此,聚类之前一定要
目标明确。
聚类要注意的问题
另外就分成多少类来说,也要有道
理。只要你高兴,从分层聚类的计
算机结果可以得到任何可能数量的
类。
但是,聚类的目的是要使各类之间
的距离尽可能地远,而类中点的距
离尽可能的近,并且分类结果还要
有令人信服的解释。这一点就不是
数学可以解决的了。
SPSS实现(聚类分析)
分层聚类
对SPSS中选择Analyze
-Classify-HierarchicalCluster,
然后把calorie(热量)、caffeine(咖啡
因)、sodium(钠)、price(价格)选
入Variables,
在Cluster选Cases(这是Q型聚类:对观
测值聚类),如果要对变量聚类(R型聚类)
则选Variables,
为了画出树状图,选Plots,再点
Dendrogram等。
统计学
─从数据到结论
第十二章判别分析
判别分析
(discriminantanalysis)
某些昆虫的性别只有通过解剖才能够判别
但雄性和雌性昆虫在若干体表度量上有些
综合的差异。人们就根据已知雌雄的昆虫
体表度量(这些用作度量的变量亦称为预
测变量)得到一个标准,并以此标准来判
别其他未知性别的昆虫。
这样虽非100%准确的判别至少大部分是对
的,而且用不着杀生。此即判别分析
判别分析(discriminantanalysis)
判别分析和聚类分析有何不同?
在聚类分析中,人们一般事先并不知
道应该分成几类及哪几类,全根据数
据确定。
在判别分析中,至少有一个已经明确
知道类别的“训练样本”,并利用该
样本来建立判别准则,并通过预测变
量来为未知类别的观测值进行判别了。
判别分析例子
数据:企图用一套打分体系来描
绘企业的状况。该体系对每个企业的
一些指标(变量)进行评分。
指标有:企业规模(is)、服务(se)、
雇员工资比例(sa)、利润增长(prr)、市
场份额(ms)、市场份额增长(msr)、流
动资金比例(cp)、资金周转速度(cs)等.
另外,有一些企业已经被某杂志划分
为上升企业、稳定企业和下降企业。
判别分析例子
希望根据这些企业的上述变量的打分
及其已知的类别(三个类别之一:
group-1代表上升,group-2代表稳定,
group-3代表下降)找出一个分类标准,
以对尚未被分类的企业进行分类。
该数据有90个企业(90个观测值),
其中30个属于上升型,30个属于稳定
型,30个属于下降型。这个数据就是
一个“训练样本”。
1.根据距离判别的思想
8个用来建立判别标准(或判
别函数)的(预测)变量,另一个(group)是类别
每一个企业的打分在这8个变量所构成的8
维空间中是一个点。这个数据在8维空间有
90个点,
由于已知所有点的类别,可以求得每个类
型的中心。这样只要定义了距离,就可以
得到任何给定的点(企业)到这三个中心
的三个距离。
1.根据距离判别的思想
最简单的办法就是:某点离哪个中
心距离最近,就属于哪一类。
一个常用距离是Mahalanobis距离。
用来比较到各个中心距离的数学函
数称为判别函数(discriminant
function).
这种根据远近判别的思想,原理简
单,直观易懂。为判别分析的基础
2.Fisher判别法(先进行投影)
Fisher判别法就是一种先投影的方法。
考虑只有两个(预测)变量的判别问题。
假定只有两类。数据中的每个观测值
是二维空间的一个点。见图。
这里只有两种已知类型的训练样本。
一类有38个点(用“o”表示),另一类有
44个点(用“*”表示)。按原来变量(横
坐标和纵坐标),很难将这两种点分开。
-4-20246
-4
-3
-2
-1
0
1
2
3
2.Fisher判别法(先进行投影)
于是就寻找一个方向,即图上的虚线
方向,沿该方向朝和这个虚线垂直的
一条直线进行投影会使得这两类分得
最清楚。可以看出,如果向其他方向
投影,判别效果不会比这个好。
有了投影之后,再用前面讲到的距离
远近的方法得到判别准则。这种先投
影的判别方法就是Fisher判别法。
-4-20246
-4
-3
-2
-1
0
1
2
3
Fisher判别法的数学
(仅仅是在前面的方法中加入变量选择的功能)
有时,一些变量对于判别并没有什么作用,为了
得到对判别最合适的变量,可以使用逐步判别。
即,一边判别,一边选择判别能力最强的变量,
这个过程可以有进有出。一个变量的判别能力的
判断方法有很多种,主要利用各种检验,例如
Wilks’Lambda、Rao’sV、TheSquared
MahalanobisDistance、SmallestFratio或TheSum
ofUnexplainedVariations等检验。其细节这里就
不赘述了;这些不同方法可由统计软件的各种选
项来实现。逐步判别的其他方面和前面的无异。
利用SPSS软件的逐步判别法淘汰了不显著的流动资金
比例(cp),还剩下七个变量。用x1,x2,x3,x4,x5,x6,x7分
别表示标准化后的变量is,se,sa,prr,ms,msr,
cs,得到两个典则判别函数(Canonical
DiscriminantFunctionCoefficients):
这两个函数实际上是由Fisher判别法得到的向两个方向
的投影。这两个典则判别函数的系数是下面的SPSS输
出得到的:
1234567
1234567
13.1660.0353.2830.0370.0070.0680.0230.385
24.3840.0050.5670.0410.0120.0480.0440.159
Fxxxxxxx
Fxxxxxxx


根据这两个函数,从任何一个观测值(每个观测值
都有7个变量值)都可以算出两个数。把这两个数
目当成该观测值的坐标,这样数据中的150个观测
值就是二维平面上的150个点。它们的点图在下面
图中。
CanonicalDiscriminantFunctionCoefficients
.035.005
3.283.567
.037.041
-.007.012
.068.048
-.023.044
-.385-.159
-3.166-4.384
IS
SE
SA
PRR
MS
MSR
CS
(Constant)
12
Function
Unstandardizedcoefficients
CanonicalDiscriminantFunctions
Function1
100-10
F
u
n
ct
ion
2
4
3
2
1
0
-1
-2
-3
GROUP
GroupCentroids
3
2
1
3
2
1
从上图可以看出,第一个投影(相应于来自于第一个典
则判别函数横坐标值)已经能够很好地分辨出三个企业
类型了。这两个典则判别函数并不是平等的。其实一个
函数就已经能够把这三类分清楚了。SPSS的一个输出
就给出了这些判别函数(投影)的重要程度:
Eigenvalues
26.673
a
99.099.0.982
.262a1.0100.0.456
Function
1
2
Eigenvalue%ofVarianceCumulative%
Canonical
Correlation
First2canonicaldiscriminantfunctionswereusedinthe
analysis.
a.
前面说过,投影的重要性是和特征值的贡献率有关。该表
说明第一个函数的贡献率已经是99%了,而第二个只有
1%。当然,二维图要容易看一些。投影之后,再根据各
点的位置远近算出具体的判别公式(SPSS输出):
具体的判别公式(SPSS输出),由一张分类函数表给出:
ClassificationFunctionCoefficients
.118.338.554
.77021.32941.616
.345.542.811
.086.029-.001
.355.7431.203
.368.173.081
7.5315.2202.742
-57.521-53.704-96.084
IS
SE
SA
PRR
MS
MSR
CS
(Constant)
1.002.003.00
GROUP
Fisher'slineardiscriminantfunctions
该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,
就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应
的那一类。当然,用不着自己去算,计算机软件的选项可以把这些
训练数据的每一个点按照这里的分类法分到某一类。当然,我们一
开始就知道这些训练数据的各个观测值的归属,但即使是这些训练
样本的观测值(企业)按照这里推导出的分类函数来分类,也不一
定全都能够正确划分。
下面就是对我们的训练样本的分类结果(SPSS):
ClassificationResults
b,c
300030
030030
003030
100.0.0.0100.0
.0100.0.0100.0
.0.0100.0100.0
300030
030030
003030
100.0.0.0100.0
.0100.0.0100.0
.0.0100.0100.0
GROUP
1.00
2.00
3.00
1.00
2.00
3.00
1.00
2.00
3.00
1.00
2.00
3.00
Count
%
Count
%
Original
Cross-validated
a
1.002.003.00
PredictedGroupMembership
Total
Crossvalidationisdoneonlyforthosecasesintheanalysis.Incross
validation,eachcaseisclassifiedbythefunctionsderivedfromall
casesotherthanthatcase.
a.
100.0%oforiginalgroupedcasescorrectlyclassified.b.
100.0%ofcross-validatedgroupedcasescorrectlyclassified.c.
误判和正确判别率
从该表看,我们的分类能够100%地把训练
数据的每一个观测值分到其本来的类。
该表分成两部分;上面一半(Original)是
用从全部数据得到的判别函数来判断每一
个点的结果(前面三行为判断结果的数目,
而后三行为相应的百分比)。
下面一半(Crossvalidated)是对每一个
观测值,都用缺少该观测的全部数据得到
的判别函数来判断的结果。
这里结果是100%正确,但一般并不一定。
如果就用这个数据,但不用所有的变量,而只用4个变量进行判
别:企业规模(is)、服务(se)、雇员工资比例(sa)、资金周转
速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两
个典则判别函数导出的150个企业的二维点图。它不如前面的图
那么容易分清楚了
CanonicalDiscriminantFunctions
Function1
86420-2-4-6-8
F
u
n
ct
ion
2
3
2
1
0
-1
-2
-3
-4
GROUP
GroupCentroids
3
2
1
3
2
1
CanonicalDiscriminantFunctions
Function1
100-10
F
u
n
ct
ion
2
4
3
2
1
0
-1
-2
-3
GROUP
GroupCentroids
3
2
1
3
2
1
原先的图
下面是基于4个变量时分类结果表:
•这个表的结果是有87个点(%)得到正确划分,有
3个点被错误判别;其中第二类有两个被误判为第一类,
有一个被误判为第三类。
ClassificationResults
b,c
300030
227130
003030
100.0.0.0100.0
6.790.03.3100.0
.0.0100.0100.0
300030
227130
003030
100.0.0.0100.0
6.790.03.3100.0
.0.0100.0100.0
GROUP
1.00
2.00
3.00
1.00
2.00
3.00
1.00
2.00
3.00
1.00
2.00
3.00
Count
%
Count
%
Original
Cross-validated
a
1.002.003.00
PredictedGroupMembership
Total
Crossvalidationisdoneonlyforthosecasesintheanalysis.Incross
validation,eachcaseisclassifiedbythefunctionsderivedfromall
casesotherthanthatcase.
a.
96.7%oforiginalgroupedcasescorrectlyclassified.b.
96.7%ofcross-validatedgroupedcasescorrectlyclassified.c.

训练样本中必须包含所有要判别的类
型,分类必须清楚,不能有混杂。
要选择好可能用于判别的预测变量。
这是最重要的。当然,在应用中,选
择余地不见得有多大。
要注意数据是否有不寻常的点或者模
式存在。还要看预测变量中是否有些
不适宜的;这可以用单变量方差分析
(ANOVA)和相关分析来验证。
判别分析要注意什么?
判别分析是为了正确地分类,但同时也要
注意使用尽可能少的预测变量来达到这个
目的。使用较少的变量意味着节省资源和
易于对结果作解释。
在计算中需要看关于各个类的有关变量的
均值是否显著不同的
检验结果(在SPSS选项中选择Wilks’Lambda、
Rao’sV、TheSquaredMahalanobisDistance或
TheSumofUnexplainedVariations等检验的计
算机输出),以确定是否分类结果仅由于随机
因素。
判别分析要注意什么?
此外成员的权数(SPSS用prior
probability,即“先验概率”,和贝叶斯
统计的先验概率有区别)需要考虑;一般
来说,加权要按照各类观测值的多少,观
测值少的就要按照比例多加权。
对于多个判别函数,要弄清各自的重要性。
注意训练样本的正确和错误分类率。研究
被误分类的观测值,看是否能找出原因。
SPSS选项
打开。然后点击Analyze-Classify-
Discriminant,
把group放入GroupingVariable,再定义范围,即在
DefineRange输入1-3的范围。然后在Independents输入
所有想用的变量;但如果要用逐步判别,则不选Enter
independentstogether,而选择Usestepwisemethod,
在方法(Method)中选挑选变量的准则(检验方法;默认
值为Wilks’Lambda)。
为了输出Fisher分类函数的结果可以在Statistics中的
FunctionCoefficient选Fisher和Unstandardized,在
Matrices中选择输出所需要的相关阵;
还可以在Classify中的Display选summarytable,Leave-
one-outclassification;注意在Classify选项中默认的
PriorProbability为Allgroupsequal表示所有的类都平等
对待,而另一个选项为Computefromgroupsizes,即按
照类的大小加权。
在Plots可选Combined-groups,Territorialmap等。
附录
费歇(Fisher)判别法
并未要求总体分布类型
工作原理就是对原数据系统进
行坐标变换,寻求能够将总体尽
可能分开的方向.
点x在以a为法方向的投影为
a’x
各组数据的投影为
()()1:'',1,...,iiiinGaxaxik
将Gm组中数据投影的均值记为有
记k组数据投影的总均值为有
()()
1
1
'',1,...,
mn
mm
i
im
axaxmk
n

()'max
'ax
()
11
1
''
mnk
m
i
mi
axax
n

组间离差平方和为:
()2
1
()()
1
('')
'[()()']';
k
m
m
m
k
mm
m
m
SSGnaxax
anxxxxaaBa






这里
()()
1
()()']
kmm
m
m
Bnxxxx

组内离差平方和为:
()()2
11
()()()()
11
('')
'[()()']';
m
m
nk
mm
i
mi
nk
mmmm
ii
mi
SSEaxax
axxxxaaEa






()()()()
11
()()'
mnkmmmm
ii
mi
Exxxx


这里
注:L=|E|/|B+E|为有Wilks分布的检验零假设
H0:m(1)=…=m(k)的似然比统计量.Wilks分布常
用c2分布近似(Bartlett)
希望寻找a使得SSG尽可能大而SSE尽可能小,

'
()max
'
aBa
a
aEa

记方程|B-lE|=0的全部特征根为l1≥…≥lr>0,相应
的特征向量为v1,…,vr.(a)的大小可以估计判别函
数yi(x)=vi’x(=a’x)的效果.记pi为判别能力(效率),

最大的值为方程|B-lE|=0的最大特征根l1.
1
i
ir
h
h
p
l
l



使'
'
aBa
aEa
m个判别函数的判别能力定义为
1
1
1
m
im
i
ir
i
h
h
p
l
l







据此来确定选择多少判别函数。再看逐步
判别法。
判别分析
(DiscriminantAnalysis)
和聚类分析的关系
判别分析和聚类分析都是分类.
但判别分析是在已知对象有若
干类型和一批已知样品的观测
数据后的基础上根据某些准则
建立判别式.而做聚类分析时类
型并不知道.
可以先聚类以得知类型,再进行
判别.
距离判别法
假设有两个总体G1和G2,如果
能够定义点x到它们的距离
D(x,G1)和D(x,G2),则
如果D(x,G1)<D(x,G2)则
x∈G1
如果D(x,G2)<D(x,G1)则
x∈G2
如果D(x,G1)=D(x,G2)则待判
Mahalanobis距离
假设m(1),m(2),S(1),S(2)分别为G1和
G2的均值向量和协差阵,则点x到Gi
的马氏距离定义为
D2(x,Gi)=(x-m(i))’(S(i))-1(x-m(i))
其他一些距离为马氏距离的特殊
情况,因此我们着重讨论马氏距离.
马氏距离的好处是可以克服变量
之间的相关性干扰,并且消除各变
量量纲的影响.
线性判别函数:当S(1)=S(2)=S时
22(1)(2)1(1)(2)
21
1(,)(,)2[()]'()
2DxGDxGxmmmm
S

(1)(2)1(1)(2)1();()()'()
2
WxxmmmmmmS
如果W(x)>0即D(x,G1)<D(x,G2)则x∈G1
如果W(x)<0即D(x,G1)>D(x,G2)则x∈G2
如果W(x)=0即D(x,G1)=D(x,G2)则待判
当m(1),m(2),S已知时,
令a=S-1(m(1)-m(2))≡(a1,…,ap)’,则
11
1
111
()()''()(,...,)
(),...,()
p
pp
ppp
x
Wxxaaxaa
x
axax
m
mm
m
mm







显然W(x)为x1,…,xp的线性函数,称为线性判
别函数;a称为判别系数.
当m(1),m(2),S未知时,
可通过样本来估计:
()()
1,...,i
ii
nxx
判别函数为
为来自Gi的样本为(i=1,2)
2
()()()
12
112
()()()()(1)(2)
1
11
ˆˆ,(),
2
1
()()',()
2
i
n
iii
k
ki
n
iiii
itt
t
xxSS
nnn
Sxxxxxxx
m


S




1(1)(2)ˆ()()'()WxxxxxS
非线性判别函数:当S(1)≠S(2)时
22
21
(2)(2)1(2)(1)(1)1(1)
(,)(,)
()'()()()'()()
DxGDxG
xxxxmmmm

SS
这是x的一个二次函数,按照距离最近原则,
判别准则仍然为
如果W(x)>0即D(x,G1)<D(x,G2)则x∈G1
如果W(x)<0即D(x,G1)>D(x,G2)则x∈G2
如果W(x)=0即D(x,G1)=D(x,G2)则待判
多总体时的线性判别函数:当S(1)=…=S(k)=S时

22
()()1()()
1
()[(,)(,)]
2
1
[()]'(),,1,...,
2
ijij
ijij
WxDxGDxG
xijkmmmm


S
相应的准则为:
如果对一切j≠i,Wij(x)>0,则x∈Gi
如果有某一个Wij(x)=0,则待判
2()()1()(,)()'()(),1,...,iiiiDxGxxikmmS
非线性判别函数:当S(1),…,S(k)不等时
()()1()
()()1()
()()'()()
()'()()
jjj
ij
iii
Wxxx
xx
mm
mm


S
S
相应的准则为:
如果对一切j≠i,Wij(x)>0,则x∈Gi
如果有某一个Wij(x)=0,则待判.
当m(i),S(i)未知时,可通过样本来估计
2
()()()()
1
()()()()
1
11
ˆˆ,,1,...,
1
()()'.
i
n
iiii
ki
kii
n
iiii
itt
t
xxSik
nn
Sxxxx
m


S




m个判别函数的判别能力定义为
下面以两总体(k=2)为例来发现阈值.它们的均值
的投影分别为
1
1
1
m
im
i
ir
i
h
h
p
l
l







(1)(2),xx(1)(2)
11','vxvx
当总体方差相等时阈值为
(1)(2)(1)(2)111('')/2'()/2vxvxvxxm
1
(1)(1)111',...,'nvxvx
1
2(1)(1)(1)(1)
111111
111
'[()()']'
11
n
ii
i
svxxxxvvAv
nn


总体方差不等时,注意到的样本方差为
(1)(2)
*2111
12
''svxsvx
ss
m

类似地,第二组数据投影的样本方差为
2
2121
2
1'
1
svAv
n


于是阈值
如(2)(1)
11''vxvx
判别规则为1
2
()(*)
()(*)
()(*)
yxorxG
yxorxG
yxorxundecided
mm
mm
mm



用m个线性判别函数yi(x)=vi’x,i=1,…,m,时,先将
样本点在L(vi,…,vm)空间投影再按照p>1情况的
距离判别法来制定判别规则.判别能力为
1
1
1
m
im
i
ir
i
h
h
p
l
l







于秀林书上介绍了对用一个和m个判别函数的加
权和不加权方法.记y(x)=v’x,其在Gi上的样本均
值和方差,以及总均值为
()()2()',','iii
iyvxvsvyvx
m=1时,不加权法:
()()|()|min|()|ijjiyxyyxyxG
m=1时,加权法:按大小排列(1)(),...,(1)()kyyyyk
Di,i+1可为相应两类的分界点
相应的标准差为令(1),...,()k
,1
(1)()()(1),1,...,1
(1)()ii
iyiiyidik
ii




1,,1()iiiiidyxdxG
m>1时,不加权法:记
对x=(x1,…,)’,yl(x)=v(l)’x
m>1时,加权法:记
2()2
1
[()],1,...,
m
i
ill
l
Dyxyik




22min
iiDDxG
()()()',1,....,;1,...,ililycxlmik
2()2
1
[()],1,...,
m
i
illl
l
Dyxyikl


22min
iiDDxG
Bayes判别法
不用判别式,而用比较新给样品属于各个总体的
条件概率P(l|x),l=1,…,k,的大小(将新样品判归
为来自概率最大的总体).
先给出对于k个总体的先验概率q1,…,qk.如各总
体密度为{fk(x)},则后验概率为(g=1,…k):
P(g|x)=qgfg(x)/Siqifi(x)
当且仅当P(h|x)=maxgP(g|x),判x来自第h总体.
也可以用使错判的损失最小来判别.如果c(i|j)为
来自j总体的个体被错判到第i总体的损失.定义
平均错判损失(ECM)为
ECM=Si=1qi[Sl≠iP(l|i)c(l|i)]
逐步判别法
前面判别用了所有变量.
但是各变量所起作用并不一样.
要有进有出,引进“最重要的”
并剔除不显著的.根据是假设检
验(比如似然比检验).
检验的零假设是各组变量均值相等.Lambda(Wilks’Lambda统计量)接近0
表示组均值不同,接近1表示组均值没有不同.Chi-square是lambda的卡方转
换(Bartelett近似),用于确定其显著性.
鸢尾花数据(花瓣,花萼的长宽)5个变量:花瓣长(slen),花瓣宽(swid),花萼长
(plen),花萼宽(pwid),分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-
04)
Statistics→Classify→Discriminant:
Variables:independent(slen,swid,plen,pwid)
Grouping(spno)Definerange(min-1,max-3)
Classify:priorprobability(Allgroupequal)use
covariancematrix(Within-groups)Plots(Combined-groups,
Separate-groups,Territorialmap)Display(Summarytable)
Statistics:Descriptive(Means)FunctionCoefficients
(Fisher’s,Unstandardized)Matrix(Within-groupscorrelation,
Within-groupscovariance,Separate-groupscovariance,Total
covariance)
Save:(Predictedgroupmembership,DiscriminantScores,
Probabilityofgroupmembership)
鸢尾花数据(数据分析过程简明表)
AnalysisCaseProcessingSummary
150100.0
0.0
0.0
0.0
0.0
150100.0
UnweightedCases
Valid
Missingorout-of-range
groupcodes
Atleastonemissing
discriminatingvariable
Bothmissingor
out-of-rangegroup
codesandatleastone
missingdiscriminating
variable
Total
Excluded
Total
NPercent
GroupStatistics
50.063.5255050.000
34.283.7915050.000
14.621.7375050.000
2.461.0545050.000
59.365.1625050.000
27.663.1475050.000
42.604.6995050.000
13.261.9785050.000
66.387.1285050.000
29.823.2185050.000
55.605.5405050.000
20.262.7475050.000
58.608.633150150.000
30.594.363150150.000
37.6117.682150150.000
11.997.622150150.000
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
Total
Mean
Std.
DeviationUnweightedWeighted
ValidN(listwise)
鸢尾花数据(原始数据的描述)
鸢尾花数据(合并类内相关阵和协方差阵)
PooledWithin-GroupsMatrices
a
29.9608.76716.1294.340
8.76711.5425.0333.145
16.1295.03318.5974.287
4.3403.1454.2874.188
1.000.471.683.387
.4711.000.344.452
.683.3441.000.486
.387.452.4861.000
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
Covariance
Correlation
花萼长花萼宽花瓣长花瓣宽
Thecovariancematrixhas147degreesoffreedom.a.
鸢尾花数据(总协方差阵)
CovarianceMatrices
a
12.4259.9221.6361.033
9.92214.3691.170.930
1.6361.1703.016.607
1.033.930.6071.111
26.6438.28818.2905.578
8.2889.9028.1274.049
18.2908.12722.0827.310
5.5784.0497.3103.911
50.8128.09028.4616.409
8.09010.3555.8044.456
28.4615.80430.6944.943
6.4094.4564.9437.543
74.537-4.683130.03653.507
-4.68319.036-33.056-12.083
130.036-33.056312.670129.803
53.507-12.083129.80358.101
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
Total
花萼长花萼宽花瓣长花瓣宽
Thetotalcovariancematrixhas149degreesoffreedom.a.
鸢尾花数据(特征值表)
Eigenvalue:用于分析的前两个典则判别函数的特征值,是组间
平方和与组内平方和之比值.最大特征值与组均值最大的向量对
应,第二大特征值对应着次大的组均值向量
典则相关系数(canonicalcorrelation):是组间平方和与总平方和
之比的平方根.被平方的是由组间差异解释的变异总和的比.
Eigenvalues
30.419
a
99.099.0.984
.293
a
1.0100.0.476
Function
1
2
Eigenvalue%ofVarianceCumulative%
Canonical
Correlation
First2canonicaldiscriminantfunctionswereusedinthe
analysis.
a.
鸢尾花数据(Wilks’Lambda统计量)
检验的零假设是各组变量均值相等.Lambda接近0表示组均值不
同,接近1表示组均值没有不同.Chi-square是lambda的卡方转换,
用于确定其显著性.
Wilks'Lambda
.025538.9508.000
.77437.3513.000
TestofFunction(s)
1through2
2
Wilks'LambdaChi-squaredfSig.
鸢尾花数据(有关判别函数的输出)
StandardizedCanonicalDiscriminant
FunctionCoefficients
-.346.039
-.525.742
.846-.386
.613.555
花萼长
花萼宽
花瓣长
花瓣宽
12
Function
标准化的典则判别
函数系数(使用时
必须用标准化的自
变量)
11234
21234
0.3460.5250.8460.613
0.0390.7420.3860.555
yxxxx
yxxxx


鸢尾花数据(有关判别函数的输出)
CanonicalDiscriminantFunctionCoefficients
-.063.007
-.155.218
.196-.089
.299.271
-2.526-6.987
花萼长
花萼宽
花瓣长
花瓣宽
(Constant)
12
Function
Unstandardizedcoefficients
典则判别函数系数
11234
21234
0.0630.1550.1960.2992.526
0.0070.2180.0890.2716.948
yxxxx
yxxxx


鸢尾花数据(有关判别函数的输出)
这是类均值(重心)处的典则判别函数值
FunctionsatGroupCentroids
-7.392.219
1.763-.737
5.629.518
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
12
Function
Unstandardizedcanonicaldiscriminant
functionsevaluatedatgroupmeans
这是典则判别函数(前面两个函数)在类
均值(重心)处的值
鸢尾花数据(用判别函数对观测量分类结果)ClassificationProcessingSummary
150
0
0
150
Processed
Missingorout-of-range
groupcodes
Atleastonemissing
discriminatingvariable
Excluded
UsedinOutput
PriorProbabilitiesforGroups
.3335050.000
.3335050.000
.3335050.000
1.000150150.000
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
Total
PriorUnweightedWeighted
CasesUsedinAnalysis
ClassificationFunctionCoefficients
1.6871.101.865
2.6951.070.747
-.8801.0011.647
-2.284.1971.695
-80.268-71.196-103.890
花萼长
花萼宽
花瓣长
花瓣宽
(Constant)
刚毛鸢尾花变色鸢尾花
佛吉尼亚
鸢尾花
分类
Fisher'slineardiscriminantfunctions
先验概率(没有给)
费歇判别函数系数
把自变量代入三个
式子,哪个大归谁.
TerritorialMap
CanonicalDiscriminant
Function2
.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
1223
点击复制文档内容
高考资料相关推荐
文库吧 www.wenkub.com
备案图鄂ICP备17016276号-1