您好、欢迎来到现金彩票网!
当前位置:秒速牛牛投注 > 统计推理 >

工学]简二毛-统计学习基础数据挖掘、推理与预测pdf

发布时间:2019-07-03 04:42 来源:未知 编辑:admin

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  《统计学习基础-数据挖掘、推理与预测》 The Elements of Statistics Learning – Data Mining, Inference and Predication [美] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 范明 柴玉梅 等译 目录 第一章绪论 1 第二章 有指导学习概述 2 2.1 引言 2 2.2 变量类型与术语 2 2.3 两种简单预测方法:最小二乘方和最近邻 2 2.3.1 线 从最小二乘方到最近邻 3 2.4 统计判决理论(类比《信号检测与估计》之随机参量的贝叶斯估计) 3 2.5 高维空间的局部方法 4 2.6 统计模型、有指导学习和函数逼近 5 2.6.1 联合分布Pr(X,Y)的统计模型 5 2.6.2 有指导学习 5 2.6.3 函数逼近 5 2.7 结构化模型 5 2.8 受限的估计方法类 6 2.8.1 粗糙度罚和贝叶斯方法 6 2.8.2 核方法和局部回归 6 2.8.3 基函数和字典方法 7 2.9 模型选择和偏倚-方差权衡 7 第三章 回归的线 线性回归和最小二乘方(重复2.3 节内容) 8 3.2.1 高斯-马尔可夫定理 8 3.3 从简单的一元回归到多元回归 9 3.3.1 多元输出 9 3.4 子集选择和系数收缩 9 3.4.1 子集选择 9 3.4.2 收缩方法 10 3.4.3 使用导出输入方向的方法 11 3.4.4 讨论:选择和收缩方法比较 11 3.4.5 多元输出收缩和选择(名字记着先) 12 第四章 分类的线 指示矩阵的线 线性判别分析(LDA、QDA ) 14 4.3.1 正则化的判别分析 15 4.3.2 LDA 的计算 15 4.3.3 降秩线 拟合逻辑斯缔回归模型 16 4.4.2 逻辑斯缔回归还是LDA 17 4.5 分离超平面 17 4.5.1 Rosenblatt 的感知器算法 18 4.5.2 最佳分离超平面 18 第五章 基展开与正则化 20 5.1 引言 20 5.2 分段多项式和样条(可参考《数值分析》之插值法) 20 5.3 过滤和特征提取 21 5.4 光滑样条 21 5.4.1 自由度和光滑矩阵 21 5.5 光滑参数的自动选取 22 5.6 无参逻辑斯缔回归 22 5.7 多维样条函数 22 5.8 正则化和再生核希尔伯特空间 23 5.8.1 用核拓广函数空间 23 5.8.2 RKHS例子 24 5.9 小波光滑 24 第六章 核方法 25 6.1 一维核光滑方法 25 6.1.1 局部线 选择核的宽度 26 6.3 IRp上的局部回归 27 6.4 IRp上结构化局部回归模型 27 6.4.1 结构化核 27 6.4.2 结构化回归函数 27 6.5 局部似然和其他模型(略) 28 6.6 核密度估计和分类 28 6.6.1 核密度估计 28 6.6.2 核密度分类 28 6.6.3 朴素贝叶斯分类法 28 6.7 径向基函数与核 29 6.8 密度估计和分类的混合模型 29 第七章 模型评估与选择 31 7.1 引言 31 7.2 偏倚、方差和模型复杂性 31 7.3 偏倚-方差分解 32 7.4 训练误差率的乐观性 33 7.5 样本内预测误差的估计(AIC信息准则) 34 7.6 有效的参数个数 34 7.7 贝叶斯方法和BIC 35 7.8 最小描述长度(MDL) 35 7.9 Vapnik-Chernovenkis维(VC维,SRM ) 35 7.10 交叉验证(CV 曲线 自助法(bootstrap) 36 第八章 模型推理和平均 38 8.1 引言 38 8.2 自助法和极大似然 38 8.3 贝叶斯方法(略) 38 8.4 自助法和贝叶斯推理之间的联系 38 8.5 EM算法(略) 38 8.6 从后验中抽样的MCMC (略) 38 8.7 装袋(bagging)【以下属于模型平均,之上属于模型推理】 38 8.8 模型平均和堆栈(还有委员会方法) 38 8.9 随机搜索:冲击(略) 39 第九章 加法模型、树和相关方法 40 9.1 广义加法模型(GLM:General Linear Model ) 40 9.1.1 拟合加法模型 41 9.1.2 小结 41 9.2 基于树的方法(CART:Classification And Rgression Tree ) 41 9.2.1 背景 41 9.2.2 回归树 42 9.2.3 分类树 43 9.2.4 小结 43 9.3 PRIM -凸点搜索(Patient Rule Induction Method) 43 9.4 MARS :多元自适应回归样条 44 9.4.1 MARS前向模型建立过程 44 9.4.2 MARS与CART的联系 44 9.5 分层专家混合(HME:Hierarchical Mixture of Expert) 45 9.6 遗漏数据 45 第十章 提升和加法树 46 10.1 提升方法(Adaboost.M1 ) 46 10.2 提升拟合加法模型 46 10.3 前向分步加法建模 47 10.4 指数损失函数和AdaBoost 47 10.6 为什么使用指数损失 48 10.7 损失函数和健壮性(***) 49 10.7.1 分类的健壮损失函数 49 10.7.2 回归的健壮损失函数 49 10.7 数据挖掘的“现货”过程(***) 49 10.8 提升树(类比) 50 10.9 数值优化(略) 50 10.10 提升适当大小的树 50 10.11 正则化(提升数M的选择):收缩、罚回归 50 10.12 可解释性 50 10.12.1 预测自变量的相对重要性 50 10.12.2 偏依赖图 50 第十一章 神经网络 52 11.1 引言 52 11.2 投影寻踪回归(PPR:Projection Pursuit Regression) 52 11.3 神经网络 52 11.4 拟合神经网络 52 11.5 训练神经网络的一些问题 53 11.5.1 初始值 53 11.5.2 过分拟合 53 11.5.3 输入的定标 53 11.5.4 隐藏单元和层的数目 53 11.5.5 多极小值 53 11.6 小结 53 第十二章 支持向量机和柔性判别 54 12.1 引言 54 12.2 支持向量分类器 54 12.2.1 计算支持向量分类器 55 12.3 支持向量机 55 12.3.1 计算分类的SVM 56 12.3.2 作为罚方法的SVM 56 12.3.3 函数估计与核(见5.8 节,基本一致) 56 12.3.4 SVM与维灾难(此处讲的也不好,所以略) 56 12.3.5 回归的支持向量机 56 12.3.6 回归和核 57 12.4 线性判别分析的推广(FDA、PDA、MDA基本思想***) 57 第十三章 原型方法和最近邻 59 13.1 引言 59 13.2 原型方法 59 13.2.1 K-均值聚类(K-mean) 59 13.2.3 学习向量量化(LVQ:Learning Vector Quantization) 59 13.3 K-最近邻分类器 60 第十四章 无指导学习 61 14.1 引言 61 14.2 关联准则 61 14.2.1 购物篮分析 61 14.2.2 Apriori算法(有点迷糊) 62 14.3 聚类分析 62 14.3.1 邻近矩阵 62 14.3.2 基于属性的相异度 63 14.3.3 对象相异度 63 14.3.4 聚类算法(略:组合算法、混合建模和众数搜索) 64 14.3.5 k-均值聚类(仅列出算法) 64 14.3.6 k-中心点聚类 64 14.3.7 分层聚类 65 14.4 自组织映射(略:SOM 图) 65 14.5 主成分分析(略,或详见《多元统计学基础》) 65 14.6 独立成分分析(还未涉及) 65 14.7 主成份分析、因子分析、独立成分分析差异在哪里?(***) 65 第一章 绪论 统计学习在科学、财经和工业等许多领域都起着至关重要的作用。学习科学在统计学、 数据挖掘和人工智能起着关键的作用,同时也与工程学和其他学科有交叉。 本书介绍从数据中学习。典型的,有结果度量,通常是量化的或分类的,我们希望根 据一组特征 (feature )对其进行预测。假设有训练数据集 (training set of data ),借此观察 对象集的结果和特征度量。使用这些数据建立预测模型或学习器(learner),是我们可以预 测新的未知对象的结果。一个好的学习器可以精确的预测这种结果。 对于有结果变量指导学习过程的问题称为有指导学习(supervised learning );只能观察 特征,而没有结果度量的称为无指导学习过程(unsupervised learning)。 1 第二章 有指导学习概述 2.1 引言 统计文献中,通常称输入为预测子(predictor),该术语将与输入替换使用;经典的, 称输入为独立变量(independent variable ),称输出为响应(response),或更经典的称输出 为依赖变量(dependent variable )。 2.2 变量类型与术语 输出变量类型的差异引发对预测任务的命名约定:预测定量输出称为回归(regression), 而预测定性输出称为分类(classification )。我们将看到,这两类任务具有许多共同点。特 殊地,他们都可以看做函数逼近任务。 输入也可以有不同类型的度量类型,每个都可以有定量的 (qualitative )和定性的 (categorical )输入变量。这些也造成所用预测方法类型上的差别:有些方法明显最适合定 量输入,有些最适合定性输入,而有些同时适用于两者。第三种变量类型是有序分类 (ordered categorical ),如small,medium 和large。这里值之间是有序的,但不希望有度 量。 典型的,定性变量用数值编码刻画。最简单的情况是只有两个类,如“成功”或“失 败”、“存活”与“死亡”。这些常常用单个二进位数字0 和1,或者-1 和+1 表示,这种 数字编码有时候称为目标(target )。当类多于两个时,可有多种选择。最有用和最常用的 编码是通过哑变量(dummy variable ):这里 K 级定性变量用K 个二元变量或者二进位向量 表示,该向量一次只有一位被“置位”。尽管有更多的压缩编码模式,但是哑变量在因素级 是对称的。 2.3 两种简单预测方法:最小二乘方和最近邻 本节详细讨论了两种简单但有效的预测方法:使用最小二乘方的线性模型拟合和k-最 近预测规则:线性模型对结构做了大量假定,并产生稳定但可能不精确的预测;k-最近邻 对结构做了适度的假定,其预测常常是精确的,但可能不稳定。 2.3.1 线性模型与最小二乘方 给定一个输入向量X = (X1, X2, …, Xp ) ,通过以下模型来预测输出Y : � � ∑p � Y = β + X β (2.1 ) 0 j =1 j j 向量形式的线性模型可以写成内积: � � Y = Xβ (2.2 ) � � � 对单个输出建模,Y是标量;一般来说,Y可以是K 向量,这种情况下,β是p ×K 的系 数矩阵。 如何用线性模型拟合训练数据集呢?有许多不同的方法,但迄今为止最流行的是最小 二乘方(least square)。这种方法下,我们选择系数β,使得残差的平方和最小:� � ∑N T � 2 RSS�β�= i=1(yi −xi β) (2.3 ) RSS�β�是参数的二次函数,因此极小值总是存在,但可能不惟一。解用矩阵形式容易� 刻画。上式可写为: � � T � RSS�β�= �y −Xβ� �y −Xβ� (2.4 ) 如果XT X是非奇异的,则唯一解由下式给出: � T X)−1XT Y (2.6 ) β= (X 2 2.3.2 最近邻 � � 最近邻法使用训练集Ι在输入空间中最近邻x 的观测值形成Y 。特殊的,拟合Y 的k-最近 邻定义为: � 1 ( ) ∑ y Y x = k x i ∈Nk (x) i (2.8 ) 其中,N (x)是x 的邻域,由训练样本中最近邻x 的k 个点x 定义。邻近性意味着一种 k i 度量,不妨先假设这种度量为欧式距离。换句话说,找出输入空间中与x 最近邻的k 个观 测值xi ,并对它们的响应取平均值。 定义k-最近邻平均方法与定义定量输出Y 的回归方法完全相同,尽管k=1 是不太可能 的选择。 对于k-最近邻拟合,训练误差数据上的误差可能近似地是k 的增函数,并对于k=1 取 0. 由此看来,一个独立的检验集应当为我们比较不同方法提供更满意的手段。 与最小二乘方拟合的 p 个参数相比,k-最近邻拟合似乎只有一个参数,即邻居的个数 k。尽管如此,k-最近邻有效的参数个数是 N/k,一般远大于p,并随k 增加而减小。为明 白其中的原因,应注意:如果邻域不重叠,则有N/k 个邻域,每个邻域需要配一个参数(均 值)。 还要清楚,我们不能在训练数据集上使用误差的平方和作为选择k 的标准,因为这样 将总是选择1。一个独立的检验集应当为我们比较不同方法提供更满意的手段。 2.3.3 从最小二乘方到最近邻 最小二乘方的线性判定边界非常光滑,并且对于拟合显然是稳定的。看来它确实过分 依赖如下假定:线性判定边界是合适的。用我们后面将要阐明的术语来说,它具有低方差 和潜在的高偏倚。 另一方面,k-最近邻过程看上去不依赖对基础数据的任何严格假定,并能适合任何情 况。然而,判定边界的任何特定子部分都依赖于少数输入点和它们的特定位置,并因而是 摆动和不稳定的——高方差和低偏倚。 当今使用的大量流行技术大部分都是这两个简单过程的变种。事实上,1-最近邻(所 有方法中最简单的)赢得了低维问题市场的大部分份额。下面列出了加强这些简单过程的 一些方法: (1) 核方法(kernel method)使用随至目标点的距离平滑的递减到0 的权,而不是k- 最近邻所用的有效0/1 权; (2) 在高维空间中,修改距离核,以强调某变量比其他变量更重要; (3) 局部回归通过局部加权最小二乘方,而不是局部拟合常数拟合线) 线性模型拟合原输入的基展开,可以得到任意复杂的模型; (5) 投影寻踪(projection pursuit)和神经网络模型由非线 统计判决理论 (类比《信号检测与估计》之随机参量的贝叶斯估计) 本节将阐述一点理论,为模型开发提供一个框架。首先考虑定量输出的情况,并置身 于随机变量和概率空间世界。 设X ∈IRp 是实数值随机输入向量,Y ∈IR是实数值随机输出变量,具有联合分布Pr(X,Y)。 我们寻找一个函数f(X) ,给定输入X 的值预测Y 。该理论需要一个损失函数(loss function) L(Y, f(X))来处罚预测误差,而到目前为止最通用,最方便的是平方误差损失(squared error ( ) 2 loss):L�Y, f X �= (Y −f(X)) 。这就给了我们一个选取f 的标准-期望预测误差: 2 ( ) 2 ( ) ( ) EPE f = E(Y −f(X)) = ∫�y −f x � Pr dx, dy (2.9、2.10 ) 3 使上式极小化的解是条件期望: ( ) f x = E(Y X = x) (2.13 ) 也称回归函数。这样,当使用平均均方误差度量最好时,任意点X = x上的Y 的最好预 测是条件均值。 最近邻法试图使用训练数据直接实现这一点。这里发生了两次近似:(1)通过样本数 据上求平均值,对期望取近似值;(2 )在点上“取条件”放宽为在“靠近”目标点的某区 域上取条件。 当训练样本的容量N 很大时,邻域中的点多半靠近x ,并且随k 增大,平均值趋向于 稳定。事实上,在联合概率分布 Pr(X,Y)适度正则的条件下,可以证明:随N, k →∞使得 ̂ ( ) k/N →0,f x = Ave(yi xi ∈Nk (x)) →E(Y X = x) 。考虑到这一点,既然已经有了普适近似, 为什么还要进一步找呢?通常,我们没有非常大的样本。如果线性或某种更结构化的模型 是适合的,通常我们可以得到比k-最近邻更稳定的估值,尽管这种知识也需要从数据中学 习。还有一些问题,有时还很严重:随着维数p 的增大,k-最近邻域的度量规模也增大。 这样,硬要用最近邻域替代取条件,将失败地很惨。 线性回归则为我们提出了一种基于模型的方法(即线性模型),理论上可以解出: � T −1 T β= [E(X X)] E(X Y) (2.16 ) 最小二乘方的解式(2.6 )实际上是用训练数据上的平均值替换式(2.16 )中的期望。 这样,通过平均,k-最近邻和最小二乘方最终都得到近似条件期望。但是它们对模型 的假定截然不同: 最小二乘方假定f(x)可以用一个全局线性函数很好的近似; k-最近邻假定f(x)可以用一个局部常量函数很好的近似。 尽管后者看上去更可取,但是我们已经看到必须为这种灵活性付出高昂代价。本书介 绍的许多更现代的技术都是基于模型的,尽管比严格的线性模型灵活的多。 你对式(2.11 )的标准满意吗?如果用其他的代价函数代替均方误差函数会怎样? 具体的参见《信号检测与估计》之贝叶斯估计与最大似然估计。 2.5 高维空间的局部方法 迄今为止,我们已经考察了预测的两种技术:稳定但存在偏倚的线性模型和不太稳定、 但显然偏倚较小的k-最近邻估计。似乎有了合理大的训练数据集,使用k-最近邻平均总能 逼近理论上的最佳条件期望,因为我们应当能够找到接近任意x 的相当大的观测值邻域, 并对它们取平均。该方法与我们的直觉在高维空间将失败,这种现象通常称为“维灾难 (curse of dimensionality )”。该问题有多种表现形式,这里将考察几种。 考虑输入在p 维单位超立方体上均匀分布的最近邻过程。假定我们选取目标点的超立 方体邻域,覆盖观测的一部分 r 。由于这对应于单位体积的部分 r ,故预期的边长为 e ( ) 1⁄p ( ) ( ) p r = r 。在 10 维空间,e10 0.01 = 0.63,e10 0.1 = 0.80,而每个输入的整个变程 才是 1.0。这样,为得到数据的 1%或 10%以形成局部平均,我们必须覆盖每个输入变量 变程的63 %或80 %。这样的邻域不在是“局部的”。大幅降低r 也无济于事,因为取平均 值的观测越少,拟合的方差就越大。 高维空间中稀疏选样的另一个问题是所有样本点都靠近样本的边沿。考虑均匀分布在 以原点为中心的p 维单位球上的N 个数据点。假定我们考虑原点上最近邻估计,从原点到 最近数据点的中位数距离有下面的表达式给出: 11⁄N ( ) 1⁄p d p, N = (1 − ) (2.24 ) 2 ( ) 对于到最近点的平均距离,存在更复杂的表达式。对于N=500,p=10,d p, N = 0.52,超 4 过到边界的一半。这样,大部分数据点更靠近样本空间的边界,而不是靠近其他数据点。 提出这个问题是因为靠近训练样本边沿的预测更加困难。我们必须由邻近样本点外推,而 不是在它们之间内插。 维灾难的另一个现象是选样密度与N1⁄p 成比例,其中p 是输入空间的维数,而N 是样 本容量。这样,如果N1 = 100提供单输入问题的稠密样本,则N10 = 10010 是具有10 个输 入问题的相同选样密度所需要的样本容量。这样,在高维空间,所有可用的训练样本就稀 疏的散布在输入空间。 由此可见,许多变量的函数复杂性都随维数指数增加;并且,如果你希望以低维函数 相同的精度估计这样的函数,所需要的训练数据集的大小也将呈指数增长。 2.6 统计模型、有指导学习和函数逼近 ̂ ( ) 我们的目标是:对预测输入和输出之间联系的函数f(x) ,找到一个有用的逼近f x 。在 ( ) 2.4 节的理论框架下,平方误差损失将我们引向定量响应的回归函数f x = E(Y X = x) 。最 近邻这类方法可以看作是该条件期望的直接估计,但我们已近看到它们至少在两种情况下 可能失败: 如果输入空间的维数很高,最近邻不一定靠近目标点,并可能导致较大误差; 如果知道存在特殊结构,则可以用来降低估值的偏倚和方差。 2.6.1 联合分布Pr(X,Y)的统计模型 2.6.2 有指导学习 2.6.3 函数逼近 上述两者前面均由提到,此处就略。有指导学习是研究机器学习(模拟人的推理)和 神经网络(对人脑的生物学模拟)领域的主要动机。应用数学和统计学接受的方法是函数 逼近和估计的观点。这里,数据对(x , y )被视为(p+1)维欧式空间中的点。函数f(x) 的定义域 i i 对应于p 维输入自空间,并通过一个诸如y ( ) + ε i = f xi i 的模型与数据建立联系。 目标是给定在I 中的表示,对于IRp 某区域中的所有x ,得到f(x) 的一个有用逼近。尽管 不如学习方法吸引人,将有指导的学习处理为函数逼近问题,有利于将欧式空间的几何概 念和概率推理的数学概念用于该问题。这是本书采用的方法。 我们将遇到的许多逼近都与一个参数集θ有关,该参数集可以调整以适合手头的数据。 ( ) T 例如,线性模型f x = x β有θ= β. 另一类有用的逼近可以用线性基展开(linear basis expansion)表示: f ( ) ∑K θ x = k =1 hk (x)θk (2.30 ) 其中,hk 是输入向量x 的函数或变换的适当集合。传统的例子是多项展开式和三角展 开式,其中hk 可以是x 2, x1x2, cos⁡(x1)等。我们也会遇到非线性展开式,如神经网络模型 1 2 常见的S 型(sigmoid )变换: 1 ( ) hk x = T (2.31 ) 1+exp ⁡(−x β) 正如在线性模型中所做的那样,我们可以通过对残差的平方和极小化估计参数θ。 2.7 结构化模型 我们已经看到,尽管最近邻域和其他局部方法直接关注于给定点上的函数,但在高维 空间它们将面临问题。即使在低维空间,当更结构化的方法可以使得数据的使用更加有效 时,它们也可能不合适。 对于任意函数f ,考虑RSS 准则: ( ) ∑N 2 RSS f = (y −f(x )) (2.37 ) i=1 i i 5 对式(2.37 )极小化导致无穷多个解:经过训练点(x , y ) 的任意函数f都是解。任何选̂ i i 定的解都可能是一个糟糕的预测器,在检验点与训练点不同。如果在每个xi 的值上有多个 观测对x , y , l = 1, …, N ,风险就是有限的;此情况下,解经过每个x 上的y 平均值。这类 i il i i il 似于我们在2.4 节看到的,确实式(2.37 )是式(2.11 )的有限样本版本。如果样本容量足 够大,使得确保重复并稠密的安排,这些解都可能趋向于极限条件期望。 为了对有限的N 得到有用的结果,我们必须将式(2.37 )符合条件的解限制在一个较 小的函数集中。如何决定限制的特性是基于数据之外的考虑 (应该是基于训练集的吧)。 一般地,大部分学习方法施加的约束都可以视为这种或那种复杂性限制。通常这意味 着输入空间小邻域上的某种规则性,即对于所有的输入点 x ,在某种度量下,它们都彼此 足够接近,f显示出某种特殊的结构性,如近似常数、线性或低阶多项式等。这样,估值就̂ 可以通过在邻域中取平均或多项式拟合得到。 约束的强度被邻域的大小所左右。邻域越大,约束越强,并且解对于约束的特定选择 就越敏感。例如,在无穷小的邻域中的局部常数拟合已不在是约束;在非常大的邻域上的 局部线性拟合几乎是全局线性模型,并且限制很强。 约束的特性取决于使用的度量。 迄今为止,有一个事实应当清楚:任何试图在一个各向同性的小邻域产生局部变化的 函数的方法都在高维空间遇到问题-维灾难。反之,克服维数问题的所有方法都有一个相 关联的邻域度量标准(通常是隐含的或自适应的)。这些标准基本上不允许邻域同时在所有 方向上都很小。 2.8 受限的估计方法类 根据所加的限制的特点,各种非参数回归技术或学习方法可以分成一个不同的种类。 这些类是截然不同的,并且确实有一些方法可以归入多个类。每个类都有与之相关联的一 个或多个参数,有时适当的称之为光滑(smoothing )参数,它们控制局部邻域的实际大小。 详尽的讨论将在后面章节给出,这里只做简要概述。这里主要介绍三类。 2.8.1 粗糙度罚和贝叶斯方法 有一类函数被具有粗糙度罚的显示罚RSS(f)控制: ( ) ( ) PRSS f; λ = RSS f + λ∗J (f) (2.38 ) 对于在小输入区域变化太快的函数f ,用户选择的泛函J (f)将很大。例如,流行的一维 输入空间三次光滑样条(cubic smoothing spline )是罚最小二乘方准则的解: ( ) ∑N 2 ′′ 2 PRSS f; λ = (y −f(x )) + λ∗ [f (x)] dx (2.39 ) i=1 i i ∫ 这里,粗糙度罚控制f 的二阶导数的值,而罚量由λ ≥0控制。对于λ = 0,没有加罚, 则任意插值函数都可以使用;而对于λ = ∞,只允许x 上的线性函数。 罚函数,或正则化(regularization )方法表达了我们的先验信念:所寻找的函数类型 具有某种光滑性,并且确实可以纳入贝叶斯框架。 2.8.2 核方法和局部回归 这些方法可以看做通过明确说明局部邻域的特性和局部拟合的正则函数,显示的提供 回归函数的估计或条件期望。局部邻域由核函数(kernel function)K (x , x)指定,它将权 λ 0 赋予x0 的周围区域中的点x 。 例如,高斯核具有基于高斯密度函数的权函数: 2 1 x −x 0 K (x , x) = exp⁡(− ) (2.40 ) λ 0 λ 2λ 并且把随x0 到它们的欧式距离的平方指数衰减的权赋给点。参数λ对应于高斯密度函数 的方差,并控制邻域的宽度。 6 (1) 核估计最简单的形式是Nadaraya-Watson 加权平均: ∑N K (x ,x )y ̂( ) = i =1 λ 0 i i f x0 N (2.41 ) ∑ K (x ,x ) i =1 λ 0 i ( ) 的局部回归估计定义为f (x ),极小化下式: (2 ) 一般的,我们可以将f x0 � 0 θ ( ) ∑N ( ) 2 RSS f , x = K x , x (y −f (x )) (2.42 ) θ 0 i =1 λ 0 i i θ i 当然,在高维空间这些方法需要修改,以避免维灾难。 2.8.3 基函数和字典方法 这类方法包括熟悉的线性和多项式展开,但更重要的是包括多种灵活的模型。f 的模 型是基函数的线性展开式: f ( ) ∑K θ x = k =1 hk (x)θk (2.43 ) 其中,每个hk 都是输入x 的函数,而这里的术语线性是只参数θ的作用。该类包含了大 量各种不同类型的方法。 径向基函数(radial basis function)是特定形心上对称的p 维核。 神经网络的激活函数(sigmoid,transig )函数都属于这一类。 2.9 模型选择和偏倚-方差权衡 上面介绍的所有模型和后面章节中将要讨论的一些其他模型都有一个光滑或复杂性参 数需要确定:罚项的乘数、核的宽度、基函数的个数。 一般的,随着我们的过程模型的复杂度增加,方差趋向于增加,平方偏倚趋向于减小; 随着模型的复杂度降低,情况相反。通常我们希望这样选择模型的复杂度:在偏倚和方差 之间权衡,使检验误差最小。检验误差的一个显而易见的估计是训练误差,遗憾的是,训 练误差不是检验误差的一个好的估计,因为它不能适当解释模型的复杂性。 ( ) 对于k-最近邻方法,模型的复杂度被k 控制。假定数据源自一个模型Y = f X + ε,其 ( ) ( ) 2 中E ε = 0, Var ε = δ 。为简单起见,我们假定样本中x 的值预先给定(非随机的)。在x 的 i 0 期望预测误差也称检验误差或泛化误差,可以分解为: 2 ̂ EPE (x ) = E[ Y −f (x ) X = x ] k 0 � k 0 � 0 2 2 ̂ ( ) ̂ ( ) = δ + Bias �fk x0 �+ Var(fk x0 ) (2.46 ) 2 1 2 δ2 ( ) ∑ ( ) = δ + [f x0 −k xl ∈Nk (x) f xl ] + k (2.47 ) ( )我们也无法控 该表达式有三项:第一项是不可约(irreducible)的误差,即便知道f x0 ̂ ( ) 时f (x ) 的均方误差。均方误 制该误差;第二、三项在我们的控制之中,并组成估计f x0 k 0 差可以被分解成偏倚和方差两部分。 ( ) 偏倚项是实际均值与估计期望值之差的平方,对于较小的k,少量最近邻具有接近f x0 ( ) ( ) 的值f xl ,从而它们的均值将接近f x0 ;随着k 的增长,近邻将进一步远离,从而什么情 况都可能发生。 方差项是简单的平均方差,随k 的增加而减小。因而,随k 的变化我们希望在偏倚和方差 之间权衡。 7 第三章 回归的线 引言 线性模型在统计学的计算机前时代已有了很大的发展,但是即便在当今的计算机时代, 亦然有充足的理由研究并使用它们。它们简单,并且常常对输入如何影响输出提供充分和 可解释的描述。对于预测,它们通常远胜过非线性模型,特别是在训练数据数量较少,信 噪比较低或稀疏数据的情况下更是如此。最后,线性方法可以用在变换后的输入上,并且 这能大大扩展它们的应用范围。这些拓广有时称为基函数方法。 3.2 线性回归和最小二乘方(重复2.3 节内容) 给定一个输入向量X = (X1, X2, …, Xp ) ,通过以下模型来预测输出Y : � � ∑p � Y = β + X β (2.1 ) 0 j =1 j j 向量形式的线性模型可以写成内积: � � Y = Xβ (2.2 ) � � � 对单个输出建模,Y是标量;一般来说,Y可以是K 向量,这种情况下,β是p ×K 的系 数矩阵。 如何用线性模型拟合训练数据集呢?有许多不同的方法,但迄今为止最流行的是最小 二乘方(least square)。这种方法下,我们选择系数β,使得残差的平方和最小:� � ∑N T � 2 RSS�β�= i=1(yi −xi β) (2.3 ) RSS�β�是参数的二次函数,因此极小值总是存在,但可能不惟一。解用矩阵形式容易� 刻画。上式可写为: � � T � RSS�β�= �y −Xβ� �y −Xβ� (2.4 ) 如果XT X是非奇异的,则唯一解由下式给出: � T X)−1XT Y (2.6 ) β= (X 由此,可得训练输入上的拟合值: � � T X)−1XT Y (3.7 ) Y = Xβ= X (X 其中,H = X (XT X)−1XT 有时称为“帽”矩阵,因为它在 Y 上加了一个“帽”。帽矩阵 的几何意义:其计算Y 到X 的正交投影,因此也称投影矩阵(参见 《信号检测与估值》之 正交性原理)。 从统计学角度,如果训练观测(x , y )从总体中独立的随机抽取,该准则是合理的。即 i i 使x 不是随机抽取的,如果y 条件独立于x ,该准则亦然有效。(显著性检验略,参见《计 i i i 量经济学》或《多元统计分析》) 此外,X 的列向量可能不是线性独立的,从而X 不是满秩的(应该就是多重共线性问 题)。这时,XT � � � X是奇异的,并且最小二乘方系数β不是惟一确定的。然而,拟合值Y = Xβ仍 然是y 到x 的列空间上的投影,只不过存在多种用x 的列向量表示y 投影的方法。当一个 或多个定性输入使用冗余方式编码时,非满秩的情况更是经常出现。通常,一种自然的方 法解决非惟一表示问题:重新编码或删除X 中的冗余列。大部分回归软件包含检测这些冗 余,并自动的实现某种删除策略。 3.2.1 高斯-马尔可夫定理 统计学最著名的结果之一断言:在所有的线性无偏估计中,参数β的最小二乘方估计 具有最小方差。这里将准确的陈述它,并且揭示限制无偏估计不一定是明智的选择。这将 引导我们在本章的后面讨论诸如岭回归等有偏估计。 8 估计的均方误差可以分解为方差和平方偏倚两部分。高斯-马尔可夫定理暗示在所有 线性无偏线性估计中,最小二乘方估计具有最小的均方误差。然而,可能存在有偏估计, 具有更小的均方误差。这种估计以偏倚的较小增加换取方差较大的减小。从更实际的角度 讲,大部分模型是失真的,因而是有偏的;选取正确的模型旨在取得偏倚和方差之间的平 衡。 3.3 从简单的一元回归到多元回归 当输入是相互正交时,模型的参数估计之间没有影响,即不存在多重共线 节的公式求出回归估计。 对于平衡的、设计的实验,正交输入是常见的,但是对于观测数据,输入几乎是不正 交的。因此,我们必须将它们正交化,以便进一步利用该思想。正交不改变X 生成的子空 间,只是产生一个表示该子空间的正交基。 常见的方法有:(1)Gram-Schmidt 过程;(2 )QR 分解。(参见《数值分析》) 设X 的QR 分解为:X = QR ,QR 分解为X 的列空间提供了一个方便的正交基,而且我 们容易看出,最小二乘方的解由下式给出: � −1 T β= R Q Y (3.31 ) � T Y (3.31 ) Y = QQ 3.3.1 多元输出 从式(2.6 )和式(3.7 )可以看出,多元输出不影响其他输出的最小二乘方估计。 若考虑含有噪声的情况,若误差是相关的,式(2.4 )所代表的损失函数,可按下式修 ( ) 改,以适应多元版本。特殊的假定噪声ε的协方差Cov ε = Σ,则多元加权准则为: T RSS�β; Σ�= �y −Xβ�� � −1 � Σ �y −Xβ� (3.39 ) 3.4 子集选择和系数收缩 有两个原因,使得我们常常对最小二乘估计不满意。 第一个原因是预测精度(prediction accuracy):最小二乘方估计通常具有低偏倚和高 方差。有时可以通过将某些系数收缩到0 或设置为0 来提高预测精度,通过这样的处 理,牺牲一些偏倚,而降低被测值的方差,从而提高总体预测精度。 第二个原因是解释(interpretation ):存在大量预测子时,通常希望确定一个表现出 最强影响的较小子集。为了得到“大印象”,我们宁愿牺牲某些小的细节。 3.4.1 子集选择 最佳子集回归(best subset regression)对每个k ∈{0, 1,2, …, p},找出容量为k 的子集, 它们具有最小残差平方和。 (1)逐步前向选择(forward stepwise selection )有截距开始,并依次将对拟合改进最 大的预测子添加到模型中;一个典型的策略是顺序的添加产生最大F 值的预测子,当 没有一个预测子产生的F- 比率大于第90 个或第95 个百分位数时停止。 (2 )逐步后向选择(backward stepwise selection)从这个模型开始,并依次删除预测 子,每一步都删除产生最小F 值的预测子;当删除后模型中的每个预测子产生的F 值 大于第90 个或第95 个百分位数时停止。 F- 比率停止规则只提供了模型搜索的局部控制,并不试图在所考察的模型序列中找到 最好的模型。 9 3.4.2 收缩方法 通过保留预测子的一个子集而丢弃其他预测子,自己选择产生一个模型。该模型是可 解释的,并可能具有比完整模型更低的预测误差。然而,由于它是一个离散过程(变量或 者保留、或者丢弃),它常常表现出高方差,因此不能降低整个模型的预测误差。收缩方法 更连续,不会因变量多而过多的降低性能。 岭回归 (ridge regression) 岭回归通过对其容量加罚来收缩回归系数。岭系数极小化罚残差平方和: 2 �βridge ∑N ∑p ∑p 2 = argmin { �y −β − x β + λ∗� β } (3.41 ) β i=1 i 0 j =1 ij j j =1 j 这里,λ≥0控制收缩量的复杂度参数:λ值越大,收缩量越大。通过参数的平方和来 加罚的思想也用于人工神经网络,那里称为权衰减(weight decay )。 表达岭回归问题的一个等效方法是: 2 N p �βridge = argmin {� y −β −�x β } β i=1 � i 0 j =1 ij j � 受限于 ∑p β2 ≤s (3.42 ) j =1 j 这清楚的表达了参数上的量约束。式(3.41 )的参数λ和式(3.42 )的s 之间存在一个 一个对应。当线性回归模型中存在多个相关变量时,它们的系数确定新变差,并呈现高方 差(《计量经济学》有讲)。在一个变量上的很大的正系数可能被在其相关变量上类似大小 的负系数抵消。通过在系数上施加一个量约束,如式(3.42 ),可以避免这种现象发生。 此外,注意截距β0被排除在罚项之外。截距的罚将使得过程依赖于Y 的原点选择:即 给每个目标加yi 上一个常数 c 将不会简单的导致结果移动相同的量。可以证明:使用中心 化(每个x 用x −x� 替换)的输入重新设置参数之后,式(3.41 )可以分解为两部分:(1) ij ij j 用y� = ∑N y ⁄N估计β ;(2 )其余的系数使用中心化的x ,通过无截距的岭回归估计得到。 i=1 i 0 ij 将准则(3.41 )写成矩阵形式: ( ) ( )T ( ) T RSS λ = y −Xβ y −Xβ + λ∗β β (3.43 ) 容易看出岭回归的解是: �βridge = (XT X + λ∗I)−1XT Y (3.44 ) 其中,I 是p ×p 的单位矩阵。注意,选取二次罚βT β,岭回归的解又是Y 的线性函数。 这个解在XT X反演之前,将一个正常数加到XT X 的对角线上。这使得问题非奇异,即使XT X不 是满秩的。这正是当初统计学家引进岭回归的主要动机。 中心化输入矩阵X 的奇异值分解(singular value decomposition,SVD )使我们进一步 洞察岭回归的特点。N ×p 的矩阵X 的SVD 分解具有如下形式: X = UDV (3.45 ) 这里,U 和V 是N ×p 和p ×p 正交矩阵,U 的列生成X 的列空间,而V 的列生成X 的 行空间;D 是p ×p 的对角矩阵,对角阵上d1 ≥d2 ≥⋯≥dp ≥0称作X 的奇异值。 使用奇异值分解,经过某些简化,可以将最小二乘方拟合向量写成: �ls T −1 T T Xβ = X (X X) X Y = UU Y (3.46 ) 注意,UT Y是关于正交基U 的坐标。 现在,岭解是: Xβ�ridge = UD(D2 + λ∗I)−1DUT Y 10 d2 = uj 2 j uT y (3.47 ) d +λ j j d2 j 其中u 是U 的列。注意,λ ≥0,我们有 ≤1。和线性回归一样,岭回归计算y 关 j d2 +λ j 于正交基U 的坐标。然后,按因子收缩这些坐标,这意味着较大的收缩量用在具有较小d2 的 j 基向量。 一个小的d2 意味着什么? j 中心化的X 的SVD 是表示X 中变量的主成份(principal component)的另一种方式。 样本的协方差矩阵由S = XT X/N给出,而由式(3.45 )有: S = VD2VT (3.48 ) 这是XT X 的本征分解(eigen decomposition )。本征向量v 也称X 的主成份方向。第一个 j 主成份方向v1 具有如下性质:在 X 的列的所有正规化线 具有最大的样 本方差。容易看出样本方差是: ( ) ( ) 2⁄ Var z1 = Var Xv1 = d1 N (3.49 ) 最小的奇异值对应于X 的列空间中具有最小方差的方向,而岭回归在这些方向收缩最 多。(此处可结合主成份的几何意义理解,p44) 套索(lasso) 套索是一种收缩方法,像岭回归一样,但具有微妙而重要的差别。套索估计由下式定 义: 2 N p �βridge = argmin {� y −β −�x β } β i=1 � i 0 j =1 ij j � 受限于 ∑p β ≤t (3.42 ) j =1 j ∑p 2 ∑p 注意与岭回归的类似性:L 岭罚 β 被L 套索 β取代。 2 j =1 j 1 j =1 j 3.4.3 使用导出输入方向的方法 在许多情况下,我们有大量的输入,它们常常是很相关的。本节的方法产生原始输入Xj 的少量线性组合Z , m = 1,2, …, M ;然后,在回归中用Z 替代X 作为输入。这类方法随线 m m j 性组合的构造方法不同而异。 主成份回归 (PCR) 该方法中,所用的线性组合Zm 是主成份。主成份回归思想见《多元统计学分析》。 其与岭回归的异同,如下:(1)与岭回归一样,主成份依赖于输入的定标。因此,通 常首先要对输入标准化。(2 )岭回归收缩主成份的系数,收缩更依赖于对应的本征值的大 小;而主成份回归丢弃p-M 个最小本征值成分。 部分最小二乘方 (PLS)(没看懂) 3.4.4 讨论:选择和收缩方法比较 岭回归和套索回归的调整参数在一个连续区域变化,而最佳子集,PLS 和 PCR 只取两 个离散步骤到最小二乘解。 Frank 进和 Friedman 断言:对于极小化预测误差,岭回归通常比变量子集选择、主成 份回归和部分最小二乘方更可取;然而,在后两种方法上的改进是微不足道的。 我们可以拓广岭回归和套索回归,将它们看成贝叶斯估计。对于q ≥0,考虑准则: 2 �βridge ∑N ∑p ∑p q = argmin { �y −β − x β + λ∗� β } (3.51 ) β i=1 i 0 j =1 ij j j =1 j 11 可以看出:(1)q = 0对应于变量子集选取,罚简单的是非零参数的个数;(2 )q = 1对 应于套索;(3 )q = 2对应于岭回归。这种观点下,套索、岭回归和最佳子集的选择都是具 有不同先验分布的贝叶斯估计。 3.4.5 多元输出收缩和选择 (名字记着先) 标准相关分析(canonical correlation analysis,CCA ) 降秩回归(reduced-rank regression) 12 第四章 分类的线 引言 本章我们回归到分类问题并关注分类的线性方法。由于预测子G(X)在离散集合g 上取 值,所以总可以根据分类将输入空间分割成标定的区域集合。 假设有 K 个类,为方便起见,记作 1,2,…,K ;第 k 个指示响应变量的拟合线性模型为 ̂ ( ) � �T ̂ ( ) ̂ ( ) fk x = βk 0 + β x 。类 k 和类ℓ之间的判定边界是满足fk x = fℓ x 的点集合,即集合 k T T � � � � {x �β −β �+ �β −β �x = 0,一个仿射集或超平面。既然任意两个类都如此,因此输 k 0 ℓ0 k ℓ 入空间被分成具有分段超平面判定边界的常数分类区域。这种回归方法是下面分类方法的 一种:它对每个类建立一个判别函数(discriminant-function )δk (x),并将x 分类到其判别 函数具有最大值的类。 用后验概率Pr⁡(G = k X = x)建模的方法也属于此类。显然如果δ

  “原创力文档”前称为“文档投稿赚钱网”,本网站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】

http://duchtech.com/tongjituili/286.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有