东北大学秦皇岛分校教材建设基金资助
Python 工程师系列
Python 多维数据 Analysis
编辑:赵宇辉
Python 高维数据分析
主编:赵煜辉
西安电子科技大学出版社
东北大学秦皇岛分校教材建设基金资助
Python 工程师系列
Python 多维数据 Analysis
编辑:赵宇辉
Python 高维数据分析
主编:赵煜辉
西安电子科技大学出版社
内容简介
信息系统和数据仓库中存储的高维数据属性间通常是具有相关性的,为此,降维分析是机器学习和人工智能数据处理的一个基本方法,在工商业智能中应用广泛。
高维数据分析需要的矩阵计算方法如奇异值分解、伪逆等知识和本科生的线性代数教学没有涉及。为此,本教材首先编写了矩阵计算的基本基本方法,并从特征值分解和奇异值分解出发,给出一个超定矩阵的最小二乘法问题的模型建立、证明和一般求解方法,并引出欠秩的多元线性方程组的求解方法问题。然后,教材给出两种有损的降维方法,主成分分析(主成分回归)和偏最小二乘回归,包括模型、算法和多个实例,并扩展到线性回归的正则化方法,给出了岭回归和lasso的原理算法和实例。最后,通过红外光谱的标定迁移实例将线性模型扩展到迁移学习领域。
每个章节都有基于python语言和sklearn机器学习库分析红外光谱数据集的实例。红外光谱集是关于物质吸光率的纯数据,可以与其标签数据物质浓度直接进行回归分析,这样读者可以把精力最大程度的集中在高维数据的建模、算法实现和分析过程的学习上。
前言
在人工智能时代,各个领域都需要统计处理像语音、图像、视频、蛋白质、DNA、物质的光谱等这样的维度在几十几百甚至成千上万的高维数据。直接处理,不仅十分耗时且大部分情况无法直接计算。为此,如何分析高维数据是人工智能应用的一个基本问题,这涉及矩阵计算和数据降维方法。有许多降维方法,如典型相关分析、Fisher's线性判别分析、独立成分分析等,本书着重介绍了主成分分析,偏最小二乘法和正则化方法这三种最基础也是最有代表性的数据分析方法。
矩阵计算是学习高维数据分析的基础,第一章主要介绍了矩阵计算的基本概念,常见的矩阵分解方法和二次型等,本章的特征值分解和奇异值分解是后面章节的基础,也是机器学习的基础知识。通过第一章的学习,你可以拥有打开高维数据分析大门的钥匙。第二章给出了正定矩阵的最小二乘解的证明和相关的性质,进而引出欠秩矩阵的一般求解方法问题。如果已经对矩阵计算的基础知识比较了解了,读者可以有选择的学习这两章内容。
第三章从分析葡萄酒成分数据引入主成分分析问题,不但介绍了主成分分析的基础知识,如理论推导、算法以及python程序实例和结果展示,而且在主成分回归、在线过程分析中主成分的应用实例等方面进行了扩展,让读者能够从几个简单的python程序中就学习到解决实际问题的基本方法。
第四章详细介绍的偏最小二乘算法是从自变量和因变量的关系来分析数据的方法,其降维数据方法是求解与目标数据(因变量)相关性最大的潜变量。本章先给出SIMPLS和NIPALS两种常见偏最小二乘算法,然后介绍的stack PLS算法是偏最小二乘的集成学习方法,目的是教给读者如何扩展这些基本的数据分析方法。本章详细的介绍了如何通过交叉验证选择潜变量数量的方法,也介绍编写数据分析程序的许多细节知识,读者可以通过模仿和实践这些程序开发过程,得到很好的用Python语言进行数据分析的训练。
第五章通过介绍岭回归和lasso这两个理论模型,说明了对数据进行正则化约束的基本方法,并给出了算法的数学模型,调用sklearn包的lasso和岭回归的python程序。
第六章将介绍迁移方法,扩展前面介绍的已有域建立的线性回归模型到其他场景。通过一个不同红外光谱仪测定的光谱信号存在差异的现象,引出了建立的红外光谱偏最小二乘模型不适用其他仪器,介绍了这个标定迁移学习问题的研究背景以及相关方法,然后给出了两个基于特征的标定迁移方法及其python程序、实验结果和数据分析过程。
这本书是机器学习和人工智能教学的一个数学基础开始的课程,大量的化学计量学数据和光谱数据Python程序实例,能够让读者从理解最小二乘法的原理和其在处理实际数据中面临的问题,循序渐进的处理高维数据的降维和回归问题。多数章节都有采用近红外光谱数据的Python程序实例。红外光谱数据物理和化学意义简单,纯数值型高维小样本数据,以其为处理对象可以使读者精力能够集中在算法的设计、模型的推导和问题的解决上,不需要考虑不同应用中复杂的数据预处理需要。
本书的第一二章主要借鉴了Matrix Computations for Signal Processing中的内容,最后一章给出的是笔者发表的两篇论文,其余章节引用了几篇经典算法的原始论文,并且按照原文设计了相关的Python程序。读者阅读原始文献,分析算法过程,学习和运行程序示例,可以更好地理解高维小样本数据分析思想,这对于后面深入机器学习的各个研究领域都是很好的基础训练过程。
本书已经在东北大学秦皇岛分校2016级信息管理与信息系统专业的本科教学中试用,并根据学生反馈意见进行了修稿。同学们在使用该教材后,普遍认为该书提高了他们的英文文献的阅读能力,不再惧怕阅读机器学习领域的科研文献,并且书中给出的代码实现过程,很好的解释了文献中的思想,使同学们掌握了阅读并实现文献所述方法的学习思路,python代码能力得到了很好的锻炼,学到了如何用python解决真实数据的处理和分析问题的方法。
本书不仅适合信息管理和信息系统专业、计算机相关专业和大数据专业的大学生和研究生朋友,还适合从事光谱分析、化学分析和化学计量学的研究人员,本书引用的原始文献和数据对上述人员是非常有帮助的,当然,本书也适合对数据分析和研究感兴趣的其他python工程师。我们希望读者您能发现本书的实用性,并且能够在工作中有效地运用这些知识。
赵煜辉博士对全书内容做了整体安排,并且编写了第二、五、六章内容,高书礼、于金龙、赵子恒分别编写整理了第一章、第三章、第四章内容,全书代码由赵子恒、于金龙编写校对。
本教材是东北大学秦皇岛分校教材建设基金资助项目。
内容
1. 矩阵计算的基础1
1.1基本概念1
1.1.1符号1
1.1.2矩阵乘法 1 的“Bigger-Block”解释
1.1.3基本线性代数3
1.1.4 矩阵的四个基本子空间8
1.1.5向量范数9
1.1.6行列式10
1.1.7 行列式的性质11
1.2 T最基本的矩阵分解13
1.2.1 高斯消元法13
1.2.2 LU 分解14
1.2.3 LDM 因式分解15
1.2.4 对称矩阵的 LDL 分解15
1.2.5 Cholesky 分解16
1.2.6 Cholesky 分解的应用和示例16
1.2.7Eigendecomposition19
1.2.8 矩阵规范26
1.2.9 协方差矩阵28
1.3 奇异值分解 (SVD)31
1.3.1 Orthogonalization 31
1.32 SVD 的存在证明32
1.3.3 对 SVD35 进行分区
1.3.4 SVD 的属性和解释35
1.3.5SVD 与 ED 的关系39
1.3.6 SVD 40 的椭球体解释
1.3.7 一个有趣的定理42
1.4 Quadratic 形式43
1.4.1 Quadratic 形式理论43
1.4.2 高斯多变量概率密度函数46
1.4.3 瑞利商48
2. 最小二乘问题的解50
2.1 线性最小二乘估计50
2.1.1 示例:自回归建模50
2.1.2 Least 方解决方案51
2.1.3 正态方程的解释54
2.1.4 LS 估计的属性55
2.1.5 线性最小二乘估计和 Cramer Rao 下界60
2.2 解决最小二乘问题的广义“伪逆”方法63
2.2.1 使用 SVD63 的最小二乘法
2.2.2 伪逆65 的解释
3. 主成分分析68
3.1 引言示例68
3.2 理论73
3.2.1 采用线性组合73
3.2.2 解释的变化74
3.2.3 PCA 作为模型75
3.2.4 使用更多组件75
3.3 PCA76 的历史
3.4 实践方面76
3.4.1 预处理76
3.4.2 选择元件数量77
3.4.3 将 PCA 用于其他目的时83
3.4.4 检测异常值84
3.4.5 参考资料90
3.5 sklearn PCA 90
3.5.1 源码91
3.5.2 示例94
3.6 主成分回归95
3.6.1 源码96
3.6.2 K 折叠 Cross-V 离子98
3.6.3 例子s99
3.7 PAT 应用中用于动态模型估计的子空间方法107
3.7.1 简介107
3.7.2 Theory108
3.7.3 化学计量学中的S空间模型110
3.7.4 M同类凝血监测111
3.7.5 S卫星天基监测112
3.7.6 Results113
3.7.7.结语 117
3.7.8. 附录117
3.7.9 参考文献 121
4. 偏最小二乘法122
4.1 基本概念122
4.1.1 偏最小二乘法123
4.1.2 偏最小二乘法的形式124
4.1.3 PLS 回归126
4.1.4 统计127
4.1.5 参考文献 128
4.2 NIPALS 和 SIMPLS 算法129
4.2.1 NIPALS 129
4.2.2 简化器132
4.2.3 参考文献 137
4.3 标准偏最小二乘法的编程方法 138
4.3.1 Cross-validation 138
4.3.2 NIPALS149 程序
4.4 示例应用程序151
4.4 1 PLS151 演示
4.4.2 Corn 数据集155
4.4.2 W热数据集160
4.4.3 药片数据集162
4.5 堆叠偏最小二乘法165
4.5.1 简介165
4.5.2 堆栈偏最小二乘法理论 166
4.5.3 SPLS170 演示
4.5.4 实验176
4.5.5 参考文献 184
5.1 正则化186
5.1.1 分类186
5.1.2 吉洪诺夫正则化187
5.1.3 稀疏度的正则化器187
5.1.4 正则化在统计和机器学习中的其他用途188
5.2 Ridge 回归:非正交概率的偏倚估计ms189
5.2.1 最佳线性无偏估计的 P 参数 190
5.2.2 岭回归191
5.2.3 山脊痕迹193
5.2.4 Ridge Regression195 的 M ean 平方误差特性
5.2.5 Ridge 回归199 的一般形式
5.2.6 回归中的其他工作 200
5.2.7 选择更好的估计值
5.2.8 参考资料202
5.3 套索203
5.3.1 简介203
5.3.2 套索理论204
5.3.3 参考文献 209
5.4 Ridge 回归和 Lasso 回归示例 210
5.4.1 E示例210
5.4.2 实用示例212
5.5 稀疏 PCA216
5.5.1 简介216
5.5.2 动机和方法细节217
5.5.3 用于 p≥n 和基因表达阵列的 SPCA 222
5.5.4 SPCA223 演示
5.5.5 参见226
6. 传输方法227
6.1 光谱模型的校准传输1227
6.1.1 简介227
6.1.2 校准传输设置228
6.1.3 相关工作230
6.1.4 新的或改编的方法234
6.1.5 需要转移标准品的方法的无标准品替代方案236
6.1.6 参考资料236
6.2 用于 NIR 定量分析的基于 PLS 子空间的校准转移1239
6.2.1 校准传递方法239
6.2 2 实验241
6.2.3 结果与讨论242
6.2.4 结论250
6.3 基于仿射不变性的无标准样品 NIR 的校准传递1253
6.3.1 理论253
6.3.2 实验性的258
6.3.3 结果与讨论259
6.3.4 结论268
6.3.5 References 268
1.矩阵计算的基础
1.1基本概念
本章的目的是复习线性代数中的重要基本概念,作为本课程其余部分的基础。我们首先讨论基本构建块,例如从 “大块” 角度对矩阵乘法的概述、线性独立性、子空间和相关思想、秩等,这些都是线性代数的严谨性所依赖的。然后,我们讨论了向量范数,以及矩阵乘法运算的各种解释。我们以对行列式的讨论结束本章。
1.1.1符号
在本课程中,我们将指出矩阵 是有维度的,并且其元素取自实数集,通过符号这意味着矩阵属于实数的笛卡尔积,取时间,每个元素一个。以类似的方式,表示法意味着矩阵是维度的,并且元素取自复数集。矩阵维度 “” 是指由 m 行和 n 列组成。
同样,该表示法意味着一个维度向量 ,其元素取自实数(复数)集。“向量的维度”是指它的长度,即它由元素组成。
此外,我们将通过符号表示标量来自实数(复数)的集合。因此,大写粗体字符表示矩阵,小写粗体字符表示向量,小写非粗体字符表示标量。
按照惯例,默认情况下,向量被视为列向量。此外,对于矩阵,我们将它的第 i 列表示为 。我们还暗示它的第 j 行是,即使这种表示法可能模棱两可,因为它也可以被视为表示第 j 列的转置。讨论的背景将有助于解决歧义。
1.1.2矩阵乘法的“Bigger-Block”解释
让我们定义矩阵乘积 as
现在,此操作的三种解释如下:
1.1.2.1 内部积表示
如果和是相同长度的列向量,则标量称为 和 的内积。如果我们将 的第 i行 和 第 j 列定义为 ,则 的元素 定义为内积 。这是矩阵乘法的常规小块表示。
1.1.2.2列表示
这是矩阵乘法的下一个更大的块视图。在这里,我们看看如何一次形成一列产品。的第 j 列可以表示为 具有系数的列的线性组合,系数是第 j 列的元素。因此
此操作与上面的内部积表示形式相同,只是我们一次形成一列产品。例如,如果我们只计算第 j 列的第 p 个元素,我们会看到 (1.1.2) 退化成。这是 和 的第 p 行和第 j 列的内积,这是 的元素 .
1.1.2.3外积表示
这是最大的块表示。我们定义一个列向量和一个行向量。则 和 的外积是秩为 1 的矩阵,定义为。现在设 和 分别是 和 的第 i 列和第 i 行。那么乘积也可以表示为
通过一次查看一列的运算,我们可以看到这种形式的矩阵乘法执行与上述列表示完全相同的操作。例如,产品的第 j 列由 (1.1.3) to be,这与 (1.1.2) 以上。
1.1.2.4矩阵前乘法和后乘法
现在让我们看看区分矩阵前乘法和后乘法的一些基本思想。在这方面,考虑一个预先乘以得到的矩阵(假设所有矩阵都具有可匹配的维度)。然后我们可以将这个乘法解释为对 的列进行操作 ,以给出乘积的列。这是因为 product 的每一列都是相应列的转换版本;即,, 。同样,让我们考虑后乘以一个矩阵 ,得到然后,我们将这个乘法解释为对 的行进行操作,因为乘积的每个 row 都是相应行的转换版本;即,,,,,,其中我们定义为 的第j 行 .
示例:考虑一个适当维度的正交矩阵。我们知道乘以正交矩阵会导致旋转运算。该操作将轮换 的每列。该操作将轮换每一行。
还有另一种方法可以解释前乘法和后乘法。再次将矩阵 预先乘以得到。然后根据 (1.1.2) 的第 j 列是 的列的线性组合,其系数是第 j列 的系数。同样,因为,我们可以说第 i 行是 的行的线性组合,其系数是 的第 i 行 .
这两种解释中的任何一种都同样有效。熟悉本节的表示是掌握线性代数领域的一大步。
1.1.3基础线性代数
1.1.3.1线性独立性
假设我们有一组 n 个 m 维向量s ,其中 i=1...n。在条件 1 下,该集合是线性独立的
用 word 来说:方程 (1.1.4) 表示当且仅当向量的唯一零线性组合的系数全部为零时,一组向量是线性独立的。
如果可以通过采用向量的所有可能线性组合来形成 n 维空间,则一组 n 向量是线性独立的。如果空间的维度小于 n,则向量是线性相关的。向量空间的概念和向量空间的维度稍后会变得更加精确。
请注意,一组向量 where 不能线性独立。
示例 1:
此集合是线性独立的。另一方面,集合
莫。这是因为第三列是前两列的线性组合。(第一列的 -1 乘以第二列的 -1 等于第三列。因此, (1.1.4) 导致零的是 (1, 1, 1) 的任何标量倍数。
1.1.3.2跨度、范围和子空间
在本节中,我们将探讨这三个密切相关的概念。事实上,它们的数学定义几乎相同,但每种情况下的解释都不同。
跨度:
向量集的跨度,写为 ,其中,是由
换句话说,是向量 a 的所有可能线性组合的集合。如果向量是线性独立的,则这组线性组合的维度为 n。如果向量是线性相关的,则维度较小。
span 中的向量集称为 向量空间。向量空间的维度是形成空间的线性组合中线性独立向量的 n 个整数。请注意,向量空间维度不是形成线性组合的向量的维度(长度)。
示例 2:考虑图 1.1 中的以下 2 个向量:
图 1.1这些向量的跨度是纸张的 (无限延伸) 平面。
子空间
给定一组(空间)向量,子空间 是满足两个要求的向量子集:
如果 和 在子空间中,则 is 仍在子空间中。
如果我们将 子空间中的任何向量 x 乘以标量 c,则 仍在子空间中。
这两个要求意味着,对于子空间,位于子空间中的任何向量线性组合本身都在子空间中。将这个想法与 span 的想法进行比较,我们可以看到由向量定义的子空间 与 相同。但是,子空间的解释是,构成子空间的向量集必须是更大空间的子集。例如,图 1 中的向量。1.1 定义一个子空间(纸张的平面),它是三维宇宙的子集。
因此,从形式上讲,k 维子空间S由 span 确定,其中不同的索引满足;也就是说,向量空间 是 .
请注意,这不一定是子空间S 的基础。仅当该集合是最大独立集时,它才是基数。这个想法稍后会讨论。该集合不需要线性独立来定义 span 或子集。
范围:
表示为 的矩阵的范围是满足
我们可以根据矩阵乘法的列表示 (1.1.2),其中产品只有一个列。因此,我们看到 是 列的线性组合,其系数是的元素。因此,(1.1.8) 等效于 (1.1.7),因此是 的列的跨度。range 和 span 的区别在于 range 的参数是一个矩阵,而 span 的参数是一组向量。如果 的列是(不是)线性独立的,那么将(不)跨越 n 个维度。因此,向量空间的维度小于或等于 n。任何向量 的维度(长度)为 m。
示例 3:
R(A) 是任意两列的所有线性组合的集合,当 n < m (即,是一个高矩阵)时,重要的是要注意它确实是 m 维“宇宙”的子空间。在这种情况下,的维度小于或等于 n因此,不跨越整个宇宙,因此是它的子空间。
1.1.3.3最大独立集
这是一个 vector set,它不能在不失去独立性的情况下变大,也不能在不保持最大值的情况下变小;即它是一个包含跨越空间的最大数量的独立向量的集合。
1.1.3.4A 基础
子空间的基是子空间内任何最大独立的集合。它并非独一无二。
示例 4 跨 前 2 列的子空间的基数
,即
是
或任何其他线性独立的集合是。中的任何向量都唯一地表示为基础向量的线性组合。
1.1.3.5正交补码子空间
如果我们有一个由向量组成的维度 n 的子空间,则维度m – n 的正交补码子空间定义为
即,任何向量 in 都与任何向量 in 正交。数量发音为“S-p rep”。
示例 5:采用示例 4 中定义的向量集:
那么,的基 是
1.1.3.6等级
排名是一个重要的概念,我们将在整个课程中经常使用。我们在这里只简要描述 rank 的几个基本特征。以下各节将更全面地扩展这一概念。
矩阵的秩是线性独立的行或列的最大数量。因此,它是矩阵的列(行)的基维数。
的秩(表示)是 的维度
如果 和 ,则,
如果矩阵的秩小于 min(m,n),则称矩阵为秩不足。否则,称其为满秩。
如果是 square 且秩不足,则 .
可以证明。关于这一点,稍后会详细讨论。
如果矩阵的排名等于列(行)数,则称矩阵为全列(行)排名。
示例:示例 5 中的 秩为 3,而示例 3 中的 秩为 2。
1.1.3.7A 的 Null Space
的 null 空间 定义为
从前面的讨论中,乘积 是 的列的线性组合,其中的元素是相应的系数。因此,从 (1.1.13) 是列的所有零线性组合的非零系数的集合。如果 的列是线性独立的,那么根据定义,因为除了 0 之外不能有其他系数,这会导致线性组合为零。在这种情况下,空空间的维度为零,并且是全列排名。当且仅当is full column rank 时,空空间为空,当is column rank deficient2 时为空。请注意,中的任何向量都是维度 n。任何向量 in都与 的行正交,因此位于 的行跨度的正交补码中 .
例 6:与示例 3 中的相同。那么其中 c 是一个实数。
另一个示例如下。取 3 个向量 ,其中 ,它们被约束为位于 2 维平面中。然后存在这些向量的零线性组合。此线性组合的系数定义位于 的 null空间中的向量。在这种情况下,我们看到rank 不足。
矩阵的另一个重要特征是它的空性。的 nullity是 的 null 空间的维度。在上面的示例 6 中,null为 1。然后我们有以下有趣的属性:
1.1.4 矩阵的四个基本子空间
关注的四个矩阵子空间是:列空间、行空间和它们各自的正交补码。这四个子空间的发展密切相关,我们在本节中假设,其中 .
1.1.4.1列空间
这很简单。它的维度是 r。它是 列的所有线性组合的集合 .
1.1.4.2列空间的正交补码
这可以表示为,维度为 m- r。它可能被证明等同于,如下所示:根据定义,集合 x 是否令人满意:
其中 columns of 是 的行。从 (15) 中,我们看到 是 的集合与 (rows of) 的所有列正交。根据定义,这是 .
1.1.4.3行空间
行空间被简单地定义为,维度为 r。行间距是行的范围或行跨越的子空间,或者是 的行的所有可能的线性组合的集合 .
1.1.4.4行空间的正交补码
这可以表示为 。它的维度是 n − r。这个集合必须是与以下所有行正交的集合:即,要在这个空间中,必须满足
因此,集合 x 是满足 (16) 的行空间的正交补码,它就是.
我们之前已经注意到了。因此,行子空间和列子空间的维度相等。这很令人惊讶,因为它意味着矩阵的线性独立行数与线性独立列数相同。无论矩阵的大小或秩如何,这都成立。这不是一个直观上显而易见的事实,也没有立即明显的原因来解释为什么会这样。然而,矩阵的排名是独立行或列的数量。
1.1.5向量范数
vector norm 是一种表示与向量相关的长度或距离的方法。向量空间上的范数是一个函数 f,它将一个点 in 映射到一个点 in。从形式上讲,这在数学上表示为 s .
该规范具有以下属性:
为了所有人.
当且仅当x = 0 时。
为 .
为 .
我们将函数表示 为 p-norms:这是一类有用的范数,推广了欧几里得范数的思想。它们由
如果 p = 1:
它只是元素的绝对值之和。
如果 p = 2:
这是我们熟悉的欧几里得规范。
如果 :
这是 的最大元素。这可能以以下方式显示。如 ,(1.1.17) 中圆括号内的最大项主导所有其他项。因此 (1.1.17) 可以写成
其中 k是对应于 largest element 的索引。请注意,p = 2 范数具有许多有用的属性,但计算成本很高。显然,1 范数和 ∞ 范数更容易计算,但更难用代数方式处理。所有 p-norm 都遵循向量范数的所有属性。
1.1.6行列式
考虑一个方阵我们可以将矩阵定义为通过删除标量数(其中 det(·) 表示行列式)的第 i 行和第 j 列得到的子矩阵,称为与元素关联的次矩阵。签名的未成年人称为 .
的行列式 是 的列(行)中包含的 m 维体积。正如我们稍后看到的,这种对行列式的解释非常有用。矩阵的行列式可以通过表达式
或R
以上都称为行列式的协因子扩展。方程 (1.1.19) 沿 的第 i 行,而 (1.1.20) 沿第 j 列。确实有趣的是,上面的两个版本都给出了完全相同的数字,无论 i 或 j 的值如何.
方程 (1.1.19) 和 (1.1.20) 用 的辅因子表示 m × m行列式,这些辅因子本身就是决定因素。因此,(1.1.19) 或 (1.1.20) 最终将产生矩阵的行列式 .
从 (19) 可以明显看出,如果是三角形,则 是主要对角线元素的乘积。由于对角矩阵位于上三角集中,因此对角矩阵的行列式也是其对角线元素的乘积。
1.1.7 行列式的属性
在我们开始讨论之前,让我们定义一个平行管道的体积,该体积由一组列向量定义,该列向量由一个矩阵组成,作为该矩阵的主体积。我们有以下行列式的性质,这些性质在没有证据的情况下陈述:
矩阵乘积的主体积是每个矩阵的主体积的乘积。
此性质表明 和 的特征多项式3 相同。因此,正如我们稍后看到的,和 的特征值 是相同的
, .
这反映了这样一个事实:如果定义主体积的每个向量乘以c,则得到的体积乘以 .
是单数。
这意味着相应矩阵的主体积的至少一个维度已折叠为零长度。
,其中是 的特征(奇异)值这意味着由矩阵的列向量或行向量定义的平行圆柱体可以转换为相同 m 维体积的规则矩形实体,其边的长度对应于矩阵的特征(奇异)值。
正交 5 矩阵的行列式是 ±1。
这很容易看出,因为正交矩阵的向量都是单位长度并且相互正交。因此,相应的主卷为 ∓1。
如果 是非奇异的,则
如果 是非奇异的,则
如果 B 是通过交换任意两行(或列)从 中获得的,则.
如果 B 是通过将一行的标量倍数添加到另一行(或一列的标量倍数添加到另一列)从 A 获得的,则 .
行列式的另一个属性允许我们计算 的倒数。将矩阵定义为 :
其中cij 是 的辅因子。根据 (1.1.19) 或 (1.1.20),则第 i行 乘以第 i 列 ai 为;即
也可以证明
然后,结合 (1.1.22) 和 (23) 因为我们有以下有趣的属性:
其中是 单位矩阵。然后它从 (1.1.24) 的倒数为
(1.1.19) 和 (1.1.25) 都不是分别计算行列式或逆的计算效率方法。利用各种矩阵分解特性的更好方法将在课程后面体现出来.
方程 (1.1.4) 称为向量 a 的线性组合。每个向量乘以权重(或系数)c,然后对结果求和。
列排名不足是指矩阵的排名小于列数。
矩阵的特征多项式在第 1.2.7.2 章中定义。
5正交矩阵在第 1.2.7.2 章中定义。
1.2 T最基本的矩阵分解
1.2.1 高斯消元法
在本节中,我们将详细讨论高斯消元的概念,但我们通过给定方程组的高斯消元的基本方法的示例,非常快速地进行修订。
这里的 W 是非单数的。上述系统可以扩展为表单。
为了求解该系统,我们通过高斯消元法将该系统转换为以下上三角系统:
使用一系列基本行操作,如下所示
素数表示相应的量已更改 每个基本运算都保留原始方程组。 每个运算都设计为将零放置在主对角线下方的适当位置 .
一旦被三角化, 就通过对系统应用向后替换来获得解决方案。使用此过程,首先从 (1.2.3) 的最后一个方程确定。然后可以从倒数第二行等确定 算法可以由以下架构总结:
1.2.1.1 后换的准确性真是太棒了?
对于浮动点数的操作,我们必须关注结果的准确性,因为浮动点数本身包含误差 我们想知道实数浮动点表示中的小误差是否可能导致计算结果中的大误差 在这个版本中,我们可以证明计算出的解决方案n 满足表达式。
Whereand you 是机器 epsilon。请注意上一讲中讨论的绝对值表示法的使用)。上面的方程表明,这是一个轻微扰动系统的精确解。我们看到 F 的所有元素都是 因此我们得出结论,由向后替换过程引起的解误差与仅由浮点表示引起的误差具有相同的顺序;因此 back substitution 是稳定的。数值稳定的算法是指对于输入值中的小误差,其输出值中产生相对较小的误差的算法。这种误差性能与我们后面看到的普通形式的高斯消元法形成鲜明对比。
矩阵的高斯消元法所需的 fl ops 总数可以显示为(一个 “flop” 是一个浮点运算,即浮点加、减、乘或除)。很容易证明,向后替换需要翻牌。因此,求解所需的运算数量由高斯消元法过程主导。
1.2.2 LU 分解
假设我们可以找到一个下三角矩阵,其中 1 沿主对角线和一个上三角矩阵,使得:
这种分解 称为 LU 分解。为了求解系统 or 我们将变量定义为 和 然后
由于这两个系统都是三角形的,因此很容易求解。第一个系统只需要前向消除;第二个唯一的后场换人。前向消除是类似于向后替换的过程,但在较低的三角形系统而不是较高的三角形系统上执行。前向替换需要与后向替换相同数量的 flops,并且同样稳定。因此,一旦 LU 分解完成,系统的解就很容易了:一旦 LU 因式分解完成,所需的 flops 总数就是。
1.2.3 LDM 因式分解
如果在高斯消元过程中没有遇到零枢轴,则存在单位下三角矩阵和对角矩阵,使得
理由:既然存在,就设上三角,其中:因此,要显示。的每一行 of 是除以其对角线元素的相应行。
然后,我们求解相当于三个步骤 的系统:
let 和 solve (flops )
let 和 solve ( flops )
SOLVE (失败)
1.2.4 对称矩阵的 LDL 分解
对于对称非奇异矩阵,因子 和 是相同的。
1.2.4.1 证明
设矩阵是对称的(从左侧)和下三角形(从右侧)。因此,它们都是对角线的。但 是非奇数,所以 也是对角线。矩阵和都是单位下三角 (ULT)。可以很容易地证明 ULT 矩阵的逆矩阵也是 ULT,此外,ULT 矩阵的乘积是 ULT。因此是 ULT,因此也是 .
这意味着对于对称矩阵, LU 因式分解只需要 flops,而不是一般情况。这是因为只需要计算较低的因子。
1.2.5 Cholesky 分解
现在,我们考虑对 LU 分解的几项修改,这些修改最终导致了 Cholesky 分解。这些修改是 1) LDM 分解,2) 对称矩阵上的 LDL 分解,以及 3) 正定对称矩阵上的 LDL 分解。Cholesky 分解仅与平方对称正定矩阵相关,并且 an 很重要。本节末尾提供了使用 Cholesky 分解的几个示例。
对于对称和正定,存在一个具有正对角线项的下三角矩阵,使得 .
1.2.5.1 证明
考虑哪个是正的、定的和对称的请注意,协方差矩阵属于此类。 因此,因此如果 是正定的,则 是满秩;让。那么,当且仅当 的所有元素都是正的。因此,如果是正定的,则 .
因为ause是对称的,所以 e 因为e是正的,所以n. 然后根据需要。
如前所述,这种分解在没有旋转的情况下是稳定的。因此,在求解 其中 对称且正定的系统时(例如,对于 其中 是样本协方差矩阵的情况),Cholesky 分解在计算的 LU 分解阶段只需要一半的 flops,并且不需要旋转。这两个因素都显著缩短了算法的执行时间。
1.2.6 Cholesky 分解的应用和示例
1.2.6.1 生成具有所需协方差的向量过程
我们可以使用 Cholesky 分解来生成具有所需协方差矩阵的随机向量过程由于必须是对称的且为正定的,因此设
是 Let 的 Cholesky 分解 是一个具有不相关元素的随机向量,使得 Such 很容易由计算机上的随机数生成器生成。然后,定义为:
向量过程 具有所需的协方差矩阵,因为
当需要创建具有指定协方差矩阵的随机向量过程时,此过程对于计算机模拟特别有用。
1.2.6.2 美白进程
这个例子基本上是刚才讨论的那个例子的反面。假设我们有一个平稳向量过程 n。 这个过程可以是从 n 个传感器阵列的元件接收到的信号,它可以是任何时变信号的 n 个顺序样本集,或者是长度为 n 的抽头延迟线均衡器中的数据集,在时间时刻等。让进程由信号部分和噪声部分组成 :
我们假设噪声的协方差不是对角线的。因此,噪声是相关的或着色的。此讨论需要已知或可以估计。
设为 的 Cholesky 因式分解,使得 (1.2.13) 的两边都预乘 :
noise 组件现在是。相应的噪声协方差矩阵为
因此,通过将原始信号预乘噪声的逆 Cholesky 因子,得到的噪声为白色。通过预乘协方差矩阵的平方反比根(而不是其他一些因子)来白化序列是信号处理中的一个重要概念。逆 Cholesky 因子最常应用于这些情况,因为它稳定且易于计算。
由于接收信号的联合概率密度函数 ,给定无噪声信号,在存在具有协方差矩阵的高斯噪声样本的情况下,只是噪声本身的 pdf,由本节中讨论的多维高斯概率密度函数给出。1.2.1:
相反,假设我们 通过与 的逆 Cholesky 因子 进行预乘 来变换向量,以形成 此变换使噪声白化。从上面的讨论中,我们看到变量的协方差矩阵 是恒等式。
因此
因此,在(1.2.17)我们白化了噪声的情况下,对信号的任何涉及检测或估计的处理都可以通过独立于其余变量处理每个白化变量来完成 ,因为这些变量被证明是独立的。相反,如果我们希望以有色噪声处理原始信号,我们必须共同处理整个向量,因为通过 (1.2.16) 的指数中的二次形式引入的元素之间存在依赖关系。因此,当噪声被着色时,白化过程大大简化了对信号的处理。
作为使用 Cholesky 分解的另一个示例,我们考虑具有协方差的零均值随机向量的多变量高斯 pdf 分布的指数是 那么 Cholesky 因子在哪里 如果我们让,则分布的指数变为 但是从我们看到 的协方差是 即, 是白色的。因此,我们看到 高斯 pdf 指数中的矩阵具有将原始随机变量转换为 另一个随机变量的作用,其元素与单位方差无关。因此,对原始变量进行白化和归一化 .
这些变量被证明是独立的 相反,如果我们希望在彩色噪声中处理原始信号 x,我们必须联合处理整个向量 x,因为事实上存在依赖关系 ongst 通过指数中的二次形式引入的元素 (1.2.16)。 因此,当噪声着色时,白化过程显着简化了对信号的处理.
作为使用 Cholesky 分解的另一个示例,我们考虑具有协方差的零均值随机向量的多变量高斯 pdf 分布的指数是 Cholesky 因子在哪里 如果我们让 则分布的指数变为 但是从 (1.2.15) 开始,我们看到 的协方差 是 ; 即 w 是白色的 因此我们看到, 高斯 pdf 指数中的矩阵具有将 original 随机变量 x 转换为另一个随机变量 的作用,其元素与单位方差无关因此 白化和归一化原始变量 .
1.2.7Eigendecomposition
特征值分解是将矩阵分解为以下形式:
其中 是该矩阵的特征向量,正交矩阵是可逆的。= diag是一个对角线数组,每个对角线元素都是一个特征值。
首先,需要明确的是,矩阵实际上只是一个线性变换,因为当你将矩阵乘以一个向量时,你会得到一个向量,你实际上是在对这个向量进行线性变换。
当矩阵处于高维状态时,那么矩阵在高维空间下进行线性变换,线性变化可能不是用图片来说的,但是可以想象,这种变换也有很多方向的变化,我们首先从特征值分解特征向量得到 N,然后矩阵的主 N 改变方向。我们可以使用前 N 个方向来近似这个矩阵。这就是我之前说的:提取这个矩阵最重要的特征。所以总而言之,特征值分解会给你特征值和特征向量,特征值代表一个特征有多重要,而特征向量代表一个特征是什么,你可以把每个特征向量看作一个线性子空间,我们可以用这些线性子空间做很多事情。
但是,特征值分解也有很多限制,例如矩阵的变换必须是方阵。
在图像处理中,一种方法是特征值分解。我们都知道图像实际上是像素值的矩阵,所以假设我有一张图像,我对这个图像矩阵进行特征值分解,我实际上正在提取这个图像的特征,提取的特征是对应于特征向量的向量。但是,这些特征在图像中的重要性由特征值表示。比如图像矩阵的分解,得到的特征向量矩阵,而且只在对角线上的元素上矩阵 E 不为零,对角线上元素的特征值也是从大到小排列的(模数,对于单个数字,是取绝对值),也就是说图像是从 100 个特征中提取出来的, 100 x 100 数字特性的重要性,表示 100 个数字在对角矩阵中。在实践中,我们发现有 100 个特征从它们的特征值大小点提取出来,只有前 20 个最(这 20 个可能没有,有大量的 10 个,有大量的 30 个或更多)特征对应的特征值非常大,接近 0,后面是后面对特征的贡献图像几乎可以忽略不计。我们知道,对图像矩阵进行特征值分解后,可以得到矩阵和矩阵.
因此,如果你取相反的,你把右边的三个矩阵相乘,你会得到 。既然我们知道矩阵中只有前 20 个特征值更重要,那么我们可以尝试将矩阵 E 中除前 20 个特征之外的所有特征都设置为 0,即只取图像的前 20 个主要特征来恢复图像,其余的都丢弃,看看此时会发生什么.
1.2.7.1 特征值和特征向量
假设我们有一个矩阵 :
我们研究了它的特征值和特征向量。
图 1.2 各种向量的矩阵-向量乘法。
假设我们取乘积,其中,如图 1 所示。阿拉伯数字
然后
通过比较向量 和 ,我们可以看到乘积向量相对于 .
现在考虑Then.在这里,我们注意到 相对于 .
现在让我们考虑一个更有趣的情况。假设那么。现在,乘积向量指向与 相同的方向。该向量是向量 x3 的缩放版本。由于此属性, 是 的特征向量。比例因子(在本例中为 5)被赋予符号 ,称为特征值。
请注意,这也是一个特征向量,因为在这种情况下,相应的特征值为 3。
因此,我们有,如果 是 ,
即,向量的方向与因子相同,但按因子缩放 .
现在我们已经了解了特征向量的基本概念,我们继续进一步发展这个概念。 方程1.2.21 可以写成以下形式
W这里是单位矩阵。 方程 1.2.22 是一个齐次方程组,从基本线性代数中,我们知道当且仅当
其中deposition 表示行列式。 方程 1.2.23 在计算时变为多项式 in的 ance。例如,对于上面的矩阵,我们有
很容易验证这个多项式的根是 (5,3),它对应于上面指示的特征值。
方程称为 的特征方程 ,相应的多项式是特征多项式。特征多项式的次数为 n.
更一般地说,如果是,则有 的 n个解,或特征多项式的 n 个根。因此,A 有 n 个特征值令人满意;即
证明。设 和 分别是 的特征向量和相应的特征值。选择任意 (any)。然后
和
Premultiply by和 by
当 对称时,左侧的量相等。我们如下所示。由于 的左侧 是标量,因此它的 transpose 等于自身。因此,我们得到7但是,因为是对称的,。因此,,这是要展示的。
减去
当我们使用事实But by hypothesisTherefore, 仅在以下情况下满足,这意味着向量是正交的。
在这里,我们只考虑了特征值不同的情况。
如果一个特征值重复 r 次,那么仍然可以找到一个相互正交的 n 个特征向量集。
对称矩阵的特征值的另一个有用性质如下:
属性 2(Hermitian) 对称矩阵的特征值是实数。
证明 8:(通过矛盾):首先,我们考虑 true 的情况。设 λ 为对称矩阵 的非零复数特征值 。那么,由于 的元素是实数,因此 的复共轭也必须是 的特征值,因为特征多项式的根必须出现在复共轭对中。此外,如果 是对应于 的非零特征向量,则对应的特征向量必须是 的复共轭。但是属性 1 要求特征向量是正交的;因此But,根据定义,它是范数的复共轭。但是向量的范数是一个纯实数;因此,必须大于零,因为 由假设为非零。因此,我们有一个矛盾。因此,对称矩阵的特征值不能是复数;也就是说,它们是真实的。
虽然这个证明只考虑了真正的对称情况,但它很容易扩展到 Hermitian 对称的情况。
属性 3设为具有特征值 和特征向量 v 的矩阵。然后,矩阵的特征值为具有相应特征向量的 s,其中 s 是任何实数。
7 在这里,我们使用了矩阵或向量的特性, 并且 具有适形大小.
8 来自 Lastman 和 Sinha,基于微计算机的科学与工程数值方法。
证明: 根据特征向量的定义,我们有。此外,我们已经这样做了。此外,我们有。矩阵上的这个新特征向量关系表明特征向量保持不变,而特征值被 .
属性 4设 be 一个具有特征值 的矩阵 。 然后
行列式 .
跟踪9
证明很简单,但是因为使用本课程后面介绍的概念更容易,所以这里不给出。
属性 5如果 是矩阵的特征向量,则 也是特征向量,其中 是任何实数或复数常数。
证明直接通过替换 in 来跟进 。这意味着只有特征向量的方向可以是唯一的;它的规范并不唯一。
1.2.7.2正交矩阵
在进行矩阵的特征分解之前,我们必须发展正交矩阵的概念。这种形式的矩阵具有相互正交的列,每个列都是单位范数。这意味着
其中 是 Kronecker delta,和是正交矩阵 的列。考虑到 这一点,我们现在考虑产品。结果可以借助下图进行可视化:
9 方阵的 tr() 表示的轨迹是其元素在主对角线上的和(也称为“对角线”元素)。
(当 i = j 时,量 定义 的平方 2 范数,该范数已定义为 单位。当,由于 的正交性 )。方程 1.2.32 是正交矩阵的基本属性。
因此,对于正交矩阵,意味着可以简单地通过对矩阵进行转置来计算逆函数,这种操作几乎不需要计算工作。
方程 1.2.32 直接来自具有正交列的事实。数量也应该等于恒等式并不清楚。我们可以通过以下方式解决这个问题。假设和是任意两个平方可逆矩阵,使得那么,通过解析这个最后一个表达式,我们得到了
显然,如果方程 1.2.33 成立,那么量 BA 必须是恒等式10;因此,如果是这样的话。因此,如果,那么也。从这个事实可以得出,如果矩阵具有正交列,那么它也必须具有正交行。我们现在开发了正交马米的另一个有用特性:
属性 6 向量 2-范数在正交变换下是不变的。
如果是正交的,则
因此,由于范数不变,因此正交变换对向量执行旋转操作。我们稍后在研究最小二乘问题时会使用这个范数-不变性。
假设我们有一个矩阵,其中 m > n,其列是正交的。在这种情况下,我们看到 U 是一个 tall 矩阵,它可以通过仅提取任意正交矩阵的前 n 列来形成。(我们保留术语正交矩阵来指代完整的 m × m 矩阵)。因为 U 有正交列,所以 Quant.但是,重要的是要意识到在这种情况下的数量 ,与当时的情况相反。后一种关系源于这样一个事实,即长度为 m 的列向量不可能全部相互正交。事实上,我们稍后看到这是一个 到子空间的投影仪 .
假设我们有一个向量。因为它是最简单的,所以按照惯例,我们使用基来表示 b,其中 是初等向量(除了第 i 个位置的 1 之外的所有 0)。但是,在由正交矩阵的列形成的基中表示 b 通常很方便。在这种情况下,向量的元素是 b 的系数在1 中的基础。正交基很方便,因为我们只需将 .
正交矩阵有时称为酉矩阵。这是因为正交矩阵的行列式是1。
1.2.7.3 方形对称矩阵的 eigendecomposition (ED)
几乎所有执行 ED 的矩阵(至少在信号处理中)都是对称的。协方差矩阵就是一个很好的例子 ,下一节将详细讨论它。
设 是对称的。然后,对于特征值和特征向量,我们有
让特征向量归一化为单元 2 - 范数。然后,可以将这 n 个方程组合起来,或并排堆叠在一起,并以以下紧凑形式表示:
其中(即每列 都是特征向量),并且
每一侧的相应列 表示索引 i in 的一个特定值。因为我们假设是对称的,所以从属性 1 开始,它们是正交的。此外,由于我们假设了 ,是一个正交矩阵。因此,将 的两边相乘并使用 我们得到
方程称为 的特征分解 (ED)列是 的特征向量,对角线元素是相应的特征值。任何对称矩阵都可以以这种方式分解。这种形式的分解,对角线,非常有趣,并产生了许多有趣的后果。正是这种分解直接导致了我们稍后讨论的 Karhunen-Loeve 展开。
请注意,from, 的特征值和特征向量的知识足以完全指定进一步注意,如果特征值不同,则 ED 是唯一的。只有一个正交和一个对角线满足 .
方程1.2.38 也可以写成
由于是对角线的,我们说特征向量的幺正(正交)矩阵对角化没有其他正交矩阵可以对角化只有对角化的事实是特征向量的基本性质。如果你理解对称矩阵的特征向量对角化它,那么你就理解了特征值和特征向量背后的“奥秘”。就这样。我们将在本讲座后面讨论 K-L 扩展,以巩固这种解释,并展示一些非常重要的信号处理概念,这些概念脱离了 K-L 的概念。但是 K-L 分析只是这个事实的直接结果,即只有对称矩阵的特征向量对角化。
1.2.8 矩阵范数
现在我们对特征向量和特征值有了一定的了解,现在可以介绍矩阵范数了。矩阵范数与向量范数相关:它是一个映射到的函数。矩阵范数必须遵循与向量范数相同的属性。由于范数仅针对向量严格定义,因此矩阵范数是通过将矩阵映射到向量来定义的。这是通过将矩阵后乘以合适的向量来实现的。现在提出了一些有用的矩阵范数:
矩阵 -范数:矩阵 p-norm 是根据向量 p-norm 定义的。arbitrary 矩阵的矩阵 p-范数,表示为
其中 “sup” 的意思是 supremum;即,参数相对于 的所有值的最大值。由于向量范数的属性适用于任何标量 ,因此我们可以选择 in,以便 。那么,等效的语句是
现在,我们根据 的特征分解,为上述定义提供一些解释,其中 以及 square 和 symmetric 的定义。为了找到矩阵 2-范数,我们进行微分并将结果设置为零。直接区分是困难的。然而,我们注意到,找到最大化的等同于找到最大化的,而后者的微分要容易得多。在本例中,我们有 。为了找到最大值,我们使用拉格朗日乘子的方法,因为它受.
因此,我们区分数量
并将结果设置为零。上面的数量是拉格朗日乘数。这个过程的有趣结果是,必须满足
因此,(1.2.43) 的静止点是 的特征向量。当 是平方且对称时,的特征向量 等价于 的特征向量。因此,的静止点 也是 的特征向量。通过代入 , 我们发现 .
然后,解 to 由对应于 的最大特征值 的特征向量给出,并且等于 的最大特征值 .
更一般地说,在下一讲中,对于任意矩阵,它
其中是 的最大奇异值。 这个量是奇异值分解的结果,我们将在下课讨论。
对于任意值,其他值的矩阵范数为
和
Frobenius 范数:Frobenius 范数是向量的 2 范数,由矩阵的行(或列)的 2 范数组成:
矩阵范数的属性
考虑矩阵和向量。然后
此属性后跟将上述内容的两边除以 ,并应用.
如果 和是大小合适的正交矩阵,则
和
因此,我们看到矩阵 2-范数和 Frobenius 范数对正交矩阵的乘前和乘后是不变的。
进一步
其中 表示矩阵的轨迹,即其对角线元素的总和。
1.2.9 协方差矩阵
在这里,我们研究了对应于平稳离散时间随机过程的协方差矩阵的概念和性质。我们将无限序列分解 为长度为 m 的窗口,如图 1 所示。 1.3.窗户通常重叠;事实上,它们通常仅被一个样品相互取代。第 i个窗口中的样本成为 m 长度向量 因此,对应于每个窗口的向量是来自随机过程的向量样本。以这种方式处理随机信号是处理真实信号的许多形式的电子系统的基本第一步,例如过程识别、控制或任何形式的通信系统,包括电话、无线电、雷达、声纳等。
上面使用的单词 steady 表示随机过程是描述向量样本分布的相应联合 m 维概率密度函数 不随时间变化的过程。这意味着分布的所有时刻(即平均值、方差和所有互相关等数量,以及所有其他高阶统计特征)都随时间不变。然而,在这里,我们处理一种较弱的稳态形式,称为广义平稳 (WSS)。在这些过程中,只有前两个时刻(均值、方差和协方差)需要随时间不变。严格来说,协方差矩阵的概念仅与平稳或 WSS 过程相关,因为只有当底层过程是平稳的时,期望才有意义。
图例.1.3: 接收到的信号被分解成长度为 m 的窗口。第 i 个窗口中的样本包含向量。
对应于稳态过程或 WSS 过程的协方差矩阵 定义为
其中是过程的向量均值,表示图 m 中长度为 m 的索引 i 的所有可能窗口上的期望运算符 。1.3.我们经常处理零均值流程,在这种情况下,我们有
w这里 取所有窗口的期望,方程1.2.52 告诉我们 的元素 根据定义是 ,它是均方值(首选项是方差,其符号是该过程所有可能的向量样本的第一个元素 。 都等于 。因此,的所有主要对角线元素都等于过程的方差。该元素是第一个元素和第二个元素之间的互相关。考虑到所有可能的窗口,我们看到这个量是过程和本身的互相关,延迟了一个样本。 第一个上对角线上的所有元素都等于一个样本的时间滞后的互相关。由于乘法是可交换的,因此第一个较低对角线上的所有元素也都等于这个相同的互相关值。使用类似的推理,第 j 个上对角线或下对角线上的所有元素都等于j 个样本的时间滞后的过程的互相关值。因此,我们看到矩阵是高度结构化的。
让我们比较一下图 1 所示的过程。如图 1.3 所示。1.4.在前一种情况下,我们看到这个过程的变化相对较慢。因为我们假设 为零均值,所以图 1 中过程的相邻样本。1.3 在大多数情况下将具有相同的符号,因此将是一个正数,接近该值。也可以这样说,只是它不是那么接近。因此,我们看到,对于图 1 的过程。1.3 中,对角线衰减得相当缓慢,远离主对角线值。
然而,对于图 1 所示的过程。1.4,相邻样本彼此不相关。这意味着相邻样本具有相同符号的可能性相同。平均而言,具有正值的项与具有负值的项具有相同的量级。因此,当采用预期时,得到的平均值接近于零。在这种情况下,我们看到协方差矩阵集中在主对角线上,并变得等于我们注意到 的所有特征值都等于该值。由于这一特性,此类过程被称为“白光”,类似于白光,其光谱分量都相等。
该序列等效于过程的自相关函数,滞后为 0 到 m−1。过程的自相关函数根据随机过程的方差以及过程随时间变化的速度来描述随机过程的特征。
图 1.4 不相关的离散时间过程。
在实践中,不可能使用 expectations 来评估协方差矩阵,如 in。期望在实践中无法评估——它们需要无限量的数据,而这些数据永远不可用,此外,数据必须在观察间隔内保持平稳,这种情况很少见。在实践中,我们根据对过程的有限长度 N 的观察来评估 的估计值,方法是将集成平均值(期望)替换为 N 个可用数据点上的有限时间平均值,如下所示:
如果 用于 评估 ,则过程只需在观测长度上保持平稳。因此,通过使用 给出的协方差估计值,我们可以跟踪过程的真实协方差矩阵随时间的缓慢变化,前提是过程中的变化在观察区间 N 上很小。Haykin 中给出了更多属性和讨论协方差矩阵.
有趣的是,可以以另一种方式形成。设 为第 i列是其向量样本的矩阵。then 也给出为
的一些特性 :
1. 是(埃尔米特)对称的,即 ,其中 表示复共轭。
2. 如果 是对角线,则 的元素不相关。如果 的非对角线元素的大小相对于主对角线上的元素的大小显着,则称该过程高度相关。
3. 是正半定的。这意味着所有特征值都大于或等于零。我们稍后将讨论正确定性和正半确定性。
4. 如果平稳或 WSS 随机过程具有高斯概率分布,则向量均值和协方差矩阵足以完全指定过程的统计特征。
1.3 奇异值分解 (SVD)
在本次讲座中,我们将学习线性代数最基本和最重要的矩阵分解之一:SVD。它与特征分解 (ED) 有一些相似之处,但更通用。通常,ED 仅在对称方阵上感兴趣,但 SVD 可以应用于任何矩阵。SVD 为我们提供了有关矩阵的秩、列间距和行间距的重要信息,并导致非常有用的最小二乘问题的解决方案和解释。我们还讨论了矩阵投影仪的概念,以及它们与 SVD 的关系。
1.3.1 Orthogonalization
在讨论 SVD 之前,我们首先看一下 orthogonalization。对于具有线性独立特征值的方阵,我们有
其中是矩阵,这些列是 的特征向量,并且是一个对角矩阵,其特征值沿对角线为 。
1.3.1.1 直觉到正交化
我们可以将方程 (1.3.1) 视为从特征值的基到基的线性变换,并且对角化很有用,因为它可以很容易地计算矩阵的指数;
1.32 SVD 的存在证明
考虑两个向量,其中s.t.where .这样的向量和可以存在的事实遵循矩阵 2-范数的定义。我们定义正交矩阵,以便 并形成它们的第一列,如下所示:
也就是说,由一组非唯一的正交列组成,这些列与自身和 to 相互正交;类似地,对于 .
然后,我们将矩阵定义为
矩阵 A1 的结构如下:
其中 上面 (2,1) 块中的 0 源于 ,因为是正交的。
现在,我们将 (1.3.5) 通过向量 并取 2norms:
这是因为最右侧的项只是中间项的向量积的第一个元素。但是,正如我们所看到的,矩阵 p-范数遵循以下性质:
因此,使用 (1.3.6) 和 (1.3.7),我们有
请注意,除以这个数量,我们得到
但是,我们定义了。因此,以下内容必须成立:
其中右边的相等性紧随其后,因为矩阵 2-范数对于正交矩阵的乘前和乘后矩阵是不变的。通过比较 (1.3.9) 和 (1.310) 中,我们得到结果 .
将此结果代入 (1.3.5),我们现在有
整个过程仅使用组件重复,直到变为对角线。
考虑 SVD 的替代证明是有指导意义的。以下内容很有用,因为它是一个建设性的证明,它向我们展示了如何形成 SVD 的组成部分。
定理 2:设 为 秩 r 矩阵。然后存在正交矩阵,并且
哪里
证明:
考虑平方对称正半定矩阵。设大于零的特征值为然后,根据我们对特征分解的了解,存在一个正交矩阵,使得
Where 我们现在划分为 ,其中。然后 (1.3.14) 的形式为
然后通过将(1.3.15) 我们有
从 (1.3.16),我们可以写
然后,我们从 (1.3.18) 作为
然后从 (1.3.18) 我们有,因此
从 (1.3.17) 我们也有
现在我们选择一个矩阵,以便其中 , 是正交的。然后从 (1.3.19) 并且因为我们有
因此
结合 (1.3.20)、(21) 和 (1.3.23),我们有
可以使用矩阵上的特征分解而不是 on 来重复证明。在这种情况下,正交矩阵 和 的角色是互换的。
上述证明很有用,原因如下:
它简短而优雅。
我们还可以确定 SVD 的哪一部分不是唯一的。在这里,我们假设 没有重复的非零特征值。因为对应于零特征值的 的特征向量在存在重复的零特征值时不是唯一的。当 m < n + 1 (即 A 足够短)或这些条件的为空或这些条件的组合时,会发生这种情况。
根据其构造,只要矩阵由两个或多个列组成,矩阵就不是唯一的。发生这种情况.
它作为一个练习来表明,当使用矩阵开发证明时,可以对 nd 的唯一性得出类似的结论 .
1.3.3 对 SVD 进行分区
这里我们假设 具有非零奇异值(并且 p − r 为零奇异值)。稍后,我们看到了这一点。为了便于表示,我们将奇异值排列为:
在本课程的其余部分,我们将使用在 and 中分区的 SVD。我们可以将 A 的 SVD 写 成
其中,和 is分区为
的列是与 r 非零奇异值关联的左奇异向量,列是与零奇异值关联的左奇异向量。以类似的方式进行分区:
1.3.4 SVD 的性质和解释
上面的分区揭示了 SVD 的许多有趣特性:
1.3.4.1 等级 (A) = r
使用 (1.3.25),我们可以写成
在哪里。从 (1.3.28) 很明显,ith,i= 1...r 列 是 的列的线性组合,其系数由的第 i 列 给出。但是由于 in 中有 r ≤ n 列,因此 in 中只能有 r 个线性独立的列。从等级的定义可以得出)。
这一点类似于前面考虑的情况,其中我们看到 rank 等于非零特征值的数量,此时 是一个方形对称矩阵。但是,在这种情况下,结果适用于任何矩阵。这是 SVD 如何成为特征分解的泛化的另一个示例。
确定 明显大于零 的排名,以及 何时正好为零 很容易。但在实践中,由于有限精度算术和模糊数据,可能非常小,并且 可能不完全为零。因此,在实践中,确定等级并不是那么容易。一种常见的方法是声明 rank,其中 是特定于所考虑的问题的小数字。
1.3.4.2 N(A) = R(V2)
调用 nullspace。因此,我们调查集合,以便 Let, where.通过替换 (1.3.25) 因为,通过注意到那个和那个,我们得到了
因此,span() 至少是 的子空间。但是,如果 x 包含 的任何组件,则 (1.3.29) 不会为零。但是由于 是完整的基 in,我们看到 单独是 的空空间的基 .
1.3.4.3 R(A) = R(U1)
回想一下,range 的定义是 From (1.3.25),
哪里
从上面我们得到
我们看到,随着整个过程的移动,数量在整个过程中移动。因此,此上下文中的量由 的所有线性组合组成。因此,的正交基是 .
1.3.4.4 R(AT ) = R(V1)
回想一下,使用 1.3.4.3 节中参数的转置版本可以看到 Our property 的所有线性组合的集合。因此,是 的行的正交基 .
1.3.4.5 R(A )= R(U2)
来自 Sect. 1.3.4.3 中,我们看到了。由于 from (1.3.25),则是 因此结果的正交补码的基础。
1.3.4.6||A||2=σ1=最大 σ
从 2-范数的定义和 1.3.6 节的椭球体示例中很容易看出这一点。
1.3.4.7 A 的倒数
如果给出方阵的 svd,则很容易找到逆矩阵。当然,我们必须假设 是满秩,(这意味着)逆存在。的倒数由 svd 给出,使用熟悉的规则,如
的评估很容易,因为它是正方形和对角线。请注意,此处理表明 的奇异值是 .
1.3.4.8 SVD 对角化任何方程组
考虑任意矩阵的方程组。使用 SVD 的
现在让我们用基 U 来表示 b,用基 V 来表示 x,就像在第 3.6 节中一样。因此,我们 have
和
将上述内容代入 (1.3.34),方程组变为
这表明,只要我们选择正确的底数,任何方程组都可以变成对角线。此属性表示 SVD 的功能;它允许我们将任意代数结构转换为最简单的形式。
如果或 if 秩,则只有在以下情况下才能满足方程组。要看到这一点,above 在非零奇异值的对角线块下方有一个零块。因此,左侧的下部元素 (1.3.37) 都为零。然后,如果 (1.3.37) 是要满足的,则 c2 也必须为零。这意味着 that 或 .
此外,如果,或者如果,那么,如果 xo 是 的解也是 的解,其中 This 遵循,因为正如我们所看到的,是 的基础;因此,分量 , 和 .
1.3.4.9 SVD 的“旋转”解释
从 SVD 关系 中,我们有
请注意,由于 是 对角线,因此右侧的矩阵具有正交列,其 2-范数等于相应的奇异值。因此,我们可以将矩阵解释 为正交矩阵,该矩阵旋转其行 ,以便结果是具有正交列的矩阵。同样,我们有
右侧的矩阵具有 2-norm 等于相应奇异值的正交行。因此,正交矩阵对 的列进行运算(旋转) 以生成具有正交行的矩阵。
在 m > n, ( is tall) 的情况下,矩阵也是 tall,在底部的 m-n 行中为零。然后,只有 的前 n 列与 (1.3.38) 相关,只有 的前 n 行与 (1.3.39) 相关。当 m < n 时,可以进行相应的转置语句替换.
1.3.5SVD 与 ED 的关系
很明显,特征分解和奇异值分解具有许多共同的属性。为了能够在仲裁矩阵上执行对角线分解,我们付出的代价是我们需要两个正交矩阵,而不是像方形对称矩阵那样只有一个。在本节中,我们将探讨 ED 和 SVD 之间的进一步关系。
使用 (1.3.25),我们可以写
因此,很明显, 矩阵的特征向量是 的右奇异向量,而 squared 的奇异值 是相应的非零特征值。请注意,如果 是短 (m < n) 且全秩,则矩阵 将包含 未作为 A 的奇异值包含的其他零特征值。这是因为 当 A 为满秩时,矩阵的秩为 m,而 的大小为 n × n。
正如 Golub 和 van Loan 中所讨论的,SVD 在数值上比 ED 更稳定。然而,在 n >> m 的情况下,SVD 的矩阵 V 变得很大,这意味着相对于 .
此外,我们还可以使用表单说,
这表明 的特征向量是 的左奇异向量,而 的平方 的奇异值 是 的非零特征值。请注意,在这种情况下,如果 是 tall 且 full rank,则矩阵将包含 m n 个额外的零特征值,这些特征值不包括在 .
现在,我们比较 ED 和 SVD 的基本定义关系:
对于 ED,如果 是对称的,我们有:
其中是特征向量的矩阵,是特征值的对角矩阵。逐列编写此关系,我们有熟悉的特征向量/特征值关系:
对于 SVD,我们有
在哪里。此外,由于,我们拥有
因此,通过比较 (1.3.42)、(1.3.43) 和 (1.3.44),我们看到奇异向量和奇异值服从一个关系,该关系类似于定义特征向量和特征值的关系。然而,我们注意到,在 SVD 情况下,基本关系用右奇异值来表示左奇异值,反之亦然,而特征向量则用自身来表示。
练习:在方形对称矩阵上比较 ED 和 SVD,当 i)是正定的,并且 ii) 当 具有一些正特征值和一些负特征值时。
1.3.6 SVD 的椭球体解释
的奇异值,其中是超椭球体 E 的半轴长度,由下式给出:
也就是说,E 是映射到 x 的点的集合,具有所有可能的值,如图 1.5 所示。为了理解这一点,让我们看看对应的 y 的集合。我们采取
让我们改变 and 的基数。定义
那么 (45) 变为
图 1.5:SVD 的椭球体解释。
点的轨迹定义一个椭圆。椭圆的主轴沿左侧奇异向量对齐,长度等于相应的奇异值。
我们注意到这一点。因此,我们的问题被转化为观察 与该集合相对应的集合。该集合 可以通过评估 (1.3.47):
我们看到 (1.3.+48) 定义的集合确实是基 中椭圆的规范形式。因此,椭圆的主轴沿 的列对齐,其长度等于相应的奇异值 。这种对 SVD 的解释在以后我们研究条件编号时很有用.
1.3.7 一个有趣的定理
首先,我们意识到 A 的 SVD 提供了一个 “和外积” 的表示形式:
给定 等级 r,那么 在 2-norm 中排名最接近的矩阵是什么?这个 2 范数距离是多少?以下定理回答了这个问题:
定理 3: 定义
然后
换句话说,这表示最接近 2 范数意义 上的秩矩阵是由 (1.3.49) 与最小奇异值相关联。
证明:既然 它遵循那个等级,而且那个
其中第一行来自矩阵的 2 范数对正交矩阵乘前和乘后不变的事实。此外,可以表明,对于任何秩矩阵 ,
比较 (1.3.51)和(1.3.52),我们看到最接近的秩 k 矩阵由下式给出(1.3.50)。当我们希望用另一个较低秩的矩阵来近似一个矩阵时,这个结果非常有用。例如,让我们看看 1.1 中讨论的 Karhunen-Loeve 扩展。对于 随机过程的样本,我们表示为
其中V 的列是协方差矩阵的特征向量。我们在第1 节中看到。2.7 中,我们可以通过将 的元素设置为零来表示相对较少的 coefficients。这个想法是,由此产生的失真将具有最小的能量。
现在,借助这个定理,可以从不同的角度看待这一事实。假设我们保留与最大 r 特征值关联的给定元素。Let 和Then
其中 Since 是正定的、平方的和对称的,它的特征分解和奇异值分解是相同的;因此,从这个定理 and(1.3.54) 中,我们知道通过截断 K-L 系数形成的协方差矩阵是最接近 2 范数意义上的真实协方差矩阵的 rank-r 矩阵.
1.4 Quadratic 形式
1.4.1 Quadratic 形式理论
我们通过考虑正定方阵是正定的思想来引入二次形式,当且仅当对于任何
当 且仅当 for any 我们有
只有其对称部分与二次形式相关。这可以看作如下:的对称部分定义为,而 的不对称部分定义为 。 然后。可以通过直接乘法来验证二次形式也可以用以下形式表示
因为 ,对应于不对称部分的 (i, j) 项恰好抵消了对应于第 (j i) 项的项 此外,对应于 i = j 的项对于不对称部分为零 因此对应于不对称部分 S 的二次方部分为零。因此,在考虑二次方时,只考虑矩阵的对称部分就足够了 正定矩阵上的二次方形式在最小二乘和自适应滤波应用中非常频繁地使用.
定理 1:当且仅当 的对称部分的所有特征值均为正时,矩阵是正定矩阵.
证明:由于只有 的对称部分是相关的,因此二次形式 on可以表示为对 Let us define 的对称部分进行了特征分解,因此我们有
因此(1.4.4) 对于任意 x当且仅当大于零。 从(1.4.4)中,很容易验证方程,其中 k 是一个常数,定义一个多维椭圆,其中是第 i 个主轴的长度。 由于 其中是正交的,z 是 xa 上的旋转变换,因此方程是 (4) 的旋转版本。因此,也是一个带有主轴的椭圆,由下式给出。在这种情况下, 椭圆的第 i 个主轴沿的第 i 个特征向量排列。
二次形式的正定性是标量 a 的矩阵模拟,在标量表达式中为正。标量方程是一个抛物线,如果 a 为正,则朝上。同样, 是一个多维抛物线,如果为正定,则向所有方向向上.
示例 我们现在讨论一个例子来说明上面的讨论。 的三维图 如图 1.6 所示,由下式给出
相应的等值线图绘制在图 1.7 中。请注意,如上所述,这条曲线在平面上的横截面是椭圆形的,可以很容易地验证 的特征值为 3,1 和相应的特征向量,而椭圆的主轴的长度是 和 1。从图中可以看出,这些主轴确实是所示的长度,并根据需要沿特征向量的方向排列.
我们将椭圆写入以下格式
图1.6 二次型三维图.
图 1.7 等值线图 最里面的等值线对应于 k=1。
和以前一样。 从图 1.7 中可以看出,since 是正数,在所有保持不变的情况下,其定义的曲线是一条向上的抛物线。为了观察y vs 的行为,在这种情况下,我们使用纵轴 y和适当的特征向量方向,而不是通常的 x 轴方向)。
定理 2 当且仅当 为正定或正半定时,对称矩阵才能分解为以下形式.
证明(必要条件):让我们定义为。 然后
相反(充分条件),在不损失一般性的情况下,我们对 as 的对称部分进行特征分解。既然是正定的,通过假设我们可以写让我们定义其中是一个大小合适的任意正交矩阵。 然后 .
请注意,在这种情况下,如果具有非空 null 空格,则只能为正半定。否则,它是严格的正定.
1.4.2 高斯多变量概率密度函数
在这里,我们非常简要地介绍了这个主题,以便我们可以将此材料用作 Cholesky 分解应用的示例,以及本课程稍后将遵循的最小二乘分析:本主题是二次形式的一个很好的应用:更多详细信息在几本书中提供.
首先,我们考虑高斯概率分布函数 pdf 的单变量情况。具有均值和方差的高斯分布随机变量 x 的 pdf p(x)给定一个
这是我们熟悉的钟形曲线 它完全由两个参数指定:决定峰值位置的平均值,以及决定曲线宽度或散布的方差.
我们现在考虑更有趣的多维情况:考虑一个具有均值和协方差的高斯分布向量。描述 的多变量 pdf 是
我们可以看到,当变量数量变为 1 时,多变量情况坍缩为单变量情况。vs 图 如 1.8 所示,对于 和 ,定义为
因为 (1.4.9) 是二次型,其中 k 为常数的方程满足的点集是一个椭圆,因此该椭圆定义了
图 1.8 高斯概率密度函数.
相等概率密度的等值线 该椭圆的内部定义了一个区域,观察值将以 的指定概率落入该区域,该概率取决于 。 该概率水平为
其中是椭圆的内部 另一种说法:椭圆是概率分布 (9) 控制的任何观测值将以指定的概率水平下降的区域。 随着 增加,椭圆会变大并增加这些省略号在概率级别称为联合置信区 .
协方差矩阵控制椭圆的形状。因为在这种情况下,二次形式涉及 ,所以第 i 个主轴的长度不是二次形式在 中时的长度。因此,当特征值增加时,对于给定的 k 值,联合置信区的大小会增加(即分布的散布增加)。现在
图 1.9 具有条件更差的协方差矩阵的高斯 pdf.
假设我们以这样一种方式让 Poorly 条件 (主要对角线元素) 保持不变。然后,最大与最小主轴的比率变大,椭圆变长。在这种情况下,pdf 呈现出更多如图 1.9 所示的形状,它显示了一个多变量高斯 pdf,对于条件相对较差的
在这里,由于描述联合置信区的椭圆被拉长,我们看到,如果其中一个变量是已知的,另一个变量的分布将更加集中在第一个变量的值周围;即,对一个变量的了解告诉我们相对更多关于另一个变量的信息 这意味着变量彼此之间高度相关 但是我们之前已经看到,如果向量随机过程中的变量高度相关,那么协方差矩阵的非对角线元素会变得更大,从而导致它们的特征值变得更加不同;即,协方差矩阵的条件数变得更糟。正是这个较差的条件数字导致图 1.9 中的椭圆变长.
通过这个讨论,我们现在已经绕了一圈,一个高度相关的系统在其协方差矩阵中具有大量的 o ff 对角线元素,这导致了条件较差的协方差矩阵 但是具有条件较差的协方差矩阵的高斯分布过程具有拉长的联合置信区反过来,拉长的联合置信区意味着系统高度相关,这让我们回到了起点.
了解这些关系是信号处理严谨性的关键要素.
1.4.3 瑞利商数
Rayleigh 商是一种简单的数学结构,有很多有趣的用途Rayleigh 商定义为
很容易验证,如果 x 是 的第 i 个特征向量 v(不一定归一化为单位范数),那么 :
事实上,它很容易通过区分to 来表示,即 .
沿着这条推理思路进一步,让我们将子空间定义为其中是第 i 个特征向量,其中是对称的 然后 Courant Fischer 极小极大定理的一个变体说
问题 通过微分很容易表明 for最小化。Golub 和 Van Loan 的微扰理论表明,如果在 (1.4.13) 是特征向量的良好近似值,则是相应特征值的良好近似值,反之亦然。从单位 2-norm 的初始估计开始,建议使用 (1.4.13),它给出了特征向量的改进估计值。如何找到特征值?
这种技术称为瑞利商迭代,用于计算特征值和特征向量。事实上,这种迭代非常有效;可以证明它具有三次收敛
10 这仅在 A 和 B 是平方可逆的情况下成立。文中在何处?请标注
2. 最小二乘问题的解
在本节中,我们讨论了参数的线性最小二乘估计的概念 最小二乘 (LS) 分析是自适应系统的基本概念 线性预测/信号编码 系统识别和许多其他应用 最小二乘问题的解决方案从代数的角度来看非常有趣,并且还具有几个有趣的统计特性.
在本节中,我们研究了最小二乘法的几种应用,然后继续开发用于解决 LS 问题的所谓正态方程。然后,我们讨论了 LS 解的几个统计特性,并研究了它在白噪声和有色噪声下的性能。
在以后的部分中,我们将研究更有效地解决 LS 问题的方法,并处理所涉及的矩阵秩不足的情况.
2.1 线性最小二乘估计
2.1.1 示例:自回归建模
自回归 (AR) 过程是一个随机过程,当被白噪声激励时,它是全极点滤波器的输出。这个术语的原因在后面会很明显 在这个例子中,我们处理离散时间 一个全极点滤波器的传递函数由表达式
(2.1.1)
w 这里z是滤波器的极点,h是 z 中相应多项式的系数,设and 分别表示输入和输出序列的 z 变换。 如果(对应于白噪声输入),则
(2.1.2)
或者对于此特定情况,
因此 (2.12) 可以表示为
(2.1.3)
我们现在希望将此表达式转换为时域。(2.1, 3) 的每个时域信号都由相应的逆 z 变换关系给出,为
(2.1.4)
(2.1.5)
z-transform quantity对应的输入序列为
(2.1.6)
w这里 wn是具有幂的白噪声序列。(2.13) 的左侧是 z 变换的乘积。因此,(2.13) 左侧的时域表示是相应时域表示的卷积。 因此,使用 (2.13)-(2.16),我们得到
(2.1.7)
或R
(2.1.8)
对索引 i 的 m 个不同值的方程重复此操作
(2.1.9)
其中 matrix-vector 量的定义在之前的讨论中很明显。从 (2.18) 中,我们看到,如果is 适当小,则输出 y 的现值是根据过去值的线性组合预测的。因此yp 是预测值的向量。(因此下标:p“预测”)。如果很小,则预测误差很小,这是由于底层全极系统的 “惯性” 造成的。在这种情况下,全极点系统具有高度谐振,具有相对较高的 Q 因子,当由白噪声输入驱动时,输出过程变得高度可预测。
对应于 (2.1, 9) 的数学模型有时称为 回归模型 。在变量中,y 被 “回归” 到自身,因此被称为 “autoregressive”。
因此,选择 (2.115) 中的 h 是有意义的,这样预测项 Yh 就尽可能接近2 范数意义上的 yp。因此,和以前一样,我们选择h来满足
(2.1.10)
请注意,如果参数 h 已知,则自回归过程是完全表征的.
2.1.2 Least 方解决方案
我们将对应于 (2.1, 9) 的回归模型定义为
(2.1.11)
并且我们希望确定解决
(2.1.12)
w 这里,矩阵A被假定为满秩。
在这个一般上下文中,我们注意到 b 是一个观测向量,它对应于 Ax 形式的线性模型,受到噪声贡献 n 的污染。矩阵A是一个常数。在确定时,我们发现 x 的值为 2 范数意义上的模型提供了最佳观测值。
我们现在讨论有关 LS 问题的几个相关要点:
系统 (2.112) 被超定,因此在 Ax = b 正好的一般情况下不存在解.
在 (2.110) 中范数的所有常用 p 值中,p = 2 是唯一一个范数对 x 的所有值都是可微分的。因此,对于 p 的任何其他值,最优解都无法通过不同的iation 获得。
请注意,对于 Q 正交,我们有(仅p = 2 时)
(2.1.13)
这个事实在以后被用来利用。
我们将残差的最小平方和定义为。
如果,则没有唯一which 最小化。 但是,通过仅考虑具有最小范数的集合元素,可以使解是唯一的。
我们希望通过求解 (2.1, 1, 2) 来估计参数 x。我们选择求解的方法 (2.1, 1, 2) 是区分关于 x 的量,并将结果设置为零。因此,本节的其余部分专门讨论这种差异。结果是 (2.1, 1, 2) 的解的封闭形式表达式
表达式可以写成
(2.1.14)
解决方案是满足
(2.1.15)
将上面方括号中的每个术语分别定义为 。.
(2.1.16)
其中我们已经注意到自 b 以来的导数独立于x。
我们看到 (2.1, 16) 的每一项都是一个标量。为了对向量 x 进行微分 (2.116),我们将 (2.116) 的每个项对 x 的每个元素进行微分,然后将所有结果组合回一个向量我们现在讨论 (2.116) 的每个项的微分:
2.1.2.1 t2(x) 和 t3(x) 相对于 x 的 Diff触发
让我们定义一个量,这意味着 c 的分量 ck 是k =1,..., n,其中 是 A 的第 k 列的转置。
因此, . 因此
(2.1.17)
将这些结果组合成一个列向量,我们得到
(2.1.18)
由于 (2.116) 的项 3 是项 2 的转置,并且两者都是标量,因此项相等。因此
(2.1.19)
2.1.2.2 t4(x) 相对于 x 的微分
为了符号的方便,让我们定义矩阵。因此,二次形式 t4(x) 可以表示为
(2.1.20)
当对特定元素 xk 进行上述区分时,我们只需要考虑索引 i 或 j 等于 kTherefore 时的项:
(2.1.21)
其中 (2.1, 2, 1) 的第一项对应于在值 k 处保持 i常数。必须注意只包含一次对应于 i=j=k 的项,因此它在前两项中被排除并单独添加。 方程 (2.1, 21) 的计算结果为
其中 表示相应向量的第 k 个元素 在上面我们使用了 R 是对称的事实,因此 。将 k = 1, ... , n 的所有这些分量一起组装成一个列向量,我们得到
(2.1.22)
将 (2.118)、(2.119) 和 (2.122) 代入 (2.116) 我们得到重要的所需结果:
(2.1.23)
解 (2.1, 2, 3) 的 x 值是对应于 (2.1, 1, 2) 的最小二乘解。 方程 (2.1, 2, 3) 称为正态方程。下一节将讨论此术语的原因,如下所示:
2.1.3 正态方程的解释
方程 (2.1, 2, 3) 可以写成以下形式
或
(2.1.24)
哪里
(2.1.25)
is 和 b 之间的最小二乘误差向量必须与 LS 解的 R(A) 正交,因此,名称为“正态方程”。这一事实为最小二乘估计提供了重要的解释,我们现在以 3×2 的情况来说明。方程 (2.1, 1, 1) 可以表示为
我们从 (2.1.24) 中可以看到,该点位于从 b 到 R(A) 的垂线的脚下。解是 A 的列的线性组合的权重,它等于 “英尺向量”.
这种解释可以扩展如下。从中我们看到
(2.1.26)
因此, R(A) 中的点由下式给出
其中P 是 R(A) 上的投影仪。 因此,我们从另一个角度看到,最小二乘解是将 b(观察值)投影到 R(A) 上的结果。
从 (2.111) 可以看出,在无噪声的情况下,向量 b 等于向量 。应该位于从 b 到 R(A) 的垂线脚下这一事实在直觉上是合理的,因为 a 垂线是从 b 到 R(A) 的最短距离。毕竟,这就是方程 (2.112) 所表示的 LS 问题的目标.
在解释正态方程时,我们还希望解决另一点。将 (2.1.26) 代入 (2.1.25) 我们有
(2.1.27)
因此, 是 b 到 的投影。我们现在可以确定值 ,即 LS 残差的平方 2 范数:
(2.1.28)
与 R(A) 正交的事实至关重要。事实上,很容易证明选择 x 是最小二乘解的充分条件。在分析中通常是以这种方式确定的,而不是通过正交方程这个概念被称为正交性原理.
2.1.4 LS 估计的属性
在这里,我们再次考虑回归方程 (2.1, 1, 1)。为方便起见,现转载如下
(2.1.29)
现在,我们简要地阐明了 (2.1.29) 中符号的各个方面。我们使用数量x 来表示未知的参数向量,因此它被认为是我们希望估计其真实值的变量。该量是通过最小二乘过程专门获得的 x的估计值。沿同一行 (2.1.25) 是模型与观测值之间的特定值的误差另一方面,(2.1.29) 中的 n 是真实模型 () 与观测值之间的真实(未知)误差值 残差不等于 n,除非,这不太可能。
在本节中,我们将左侧视为由已知常数矩阵 A 生成的观测值的向量 b ,以及参数 x 的向量,其真实值为 观察值被噪声污染 n。因此,b 是由 n 的 pdf 描述的随机变量。但从 (2.1.26) 中我们看到这是 b 的线性变换;因此也是一个随机变量。我们现在研究它的特性。
为了讨论 LS 估计的有用和有趣的特性,我们做出以下假设:
A1:n 是具有不相关元素的零均值随机向量;即 .
A2:A 是一个常数矩阵,已知误差可以忽略不计。也就是说,A 中没有不确定性。
在 (1) 和 (2) 下,我们有 (2.1.26) 给出的 LS 估计的以下属性
2.1.4.1 XLS 是 Xo 真实值的无偏估计值
为了说明这一点,我们有 from (2.1.26)
(2.1.30)
但从回归方程 (2.1.29) 中,我们意识到观察到的数据 b 是由 x 的真实值生成的。因此,从 (2.1.29)
(2.1.31)
因此 E(x) 被给出为
(2.1.32)
这是因为 n 是假设 (1) 的零平均值。因此,x 的期望是它的真实值并且是无偏的.
2.1.4.2 xLS 的协方差矩阵
非零均值过程的协方差矩阵的定义为:
(2.1.33)
为此,我们将
(2.1.34)
将 (2.1.34) 和 (2.1.26) 代入 (2.13 3) 中,我们有
(2.1.35)
从假设 (2) 中,我们可以将期望运算符移动到 Therefore,
(2.1.36)
我们使用的结果是 噪声向量 n 和 (1) 中的噪声向量 n。
估计值的方差最好尽可能小 (2.1.36) 说它们有多小?我们看到,如果 很大,那么作为对角线元素的方差也很大。这是有道理的,因为如果 n 的元素方差很大,那么可以预期 的元素方差也会很大。但更重要的是,(2.1.36)还说,如果 在某种规范意义上是 “大”,那么 是 “小”,这是可取的。我们稍后会更详细地讨论这一点:我们还可以推断,如果 是秩缺陷,那么 是秩缺陷,并且 x 的每个分量的方差接近无穷大,这意味着结果毫无意义.
2.1.4.3xLS是蓝色的
根据 (2.1.26),我们看到这是一个线性估计,因为它是 b 的线性变换,其中变换矩阵是。从 2.1.6.1 中进一步看到这是公正的。通过以下定理,我们表明 是最好的线性无偏估计器 (BLUE)。
定理 1 考虑任何线性无偏估计,定义为
(2.1.37)
其中是估计器或变换矩阵。然后在 (1) 和 (2) 下是蓝色的。
证明:将 (2.1.29) 代入 (2.1.37) 我们有
(2.1.38)
因为 n 的均值为零 (1),
因此 ,为了不偏不倚,我们要求
(2.1.39)
我们现在可以将 (2.1.38) 写为
的协方差矩阵 为
(2.1.40)
其中我们在最后一行中使用了 (1).
我们现在考虑一个定义为估计矩阵 B 和最小二乘估计矩阵之差的矩阵 :
否 使用 (2.1.39) 我们形成矩阵乘积 :
(2.1.41)
我们注意到 的第 i 个对角线元素是第 i 行的平方 2 范数;因此,从 (2.141) 我们得到
(2.1.42)
我们注意到协方差矩阵的对角线元素是单个元素的方差。但是从 (2.140) 和 (2.1.36) 中我们可以看到 和 分别是 和 的协方差矩阵,因此 (2.142) 告诉我们 的元素的方差永远不会比 的好。因此,在线性无偏估计量类中,在假设 (1) 和 (2) 下,没有其他估计量的方差小于 L-S 估计值.
A3: 对于以下属性,我们进一步假设 n 是联合高斯分布的,均值为 0,协方差为 .
2.1.4.4 x LS 的概率密度函数
高斯分布随机变量的一个基本性质是,高斯分布量的任何线性变换也是高斯的 从 (2.1.26) 中,我们看到 是 b 的线性变换 ,根据假设它是高斯的 由于高斯 pdf 完全由分别由 (2.1, 3, 2) 和 (2.1.36) 的 pdf 表达式,则 高斯 pdf 由下式给出
(2.1.43)
我们看到,的椭圆联合置信区 是定义为
(2.1.44)
其中 k 是某个常数,它决定了观测值将落入其中的概率水平请注意,如果联合置信区在任何方向上变得拉长,则 的关联分量的方差会变大。让我们将 (2.1.44) 中的二次形式改写为
其中 和关联椭圆的第 i 个主轴的长度为 这意味着,如果某个特定的特征值很小,那么相应的轴的长度就很大,并且 z 在相应的特征向量 v 的方向上有很大的方差。如果 v 沿 的任何分量都有显著的分量,那么这些分量也具有很大的方差另一方面,如果所有特征值都很大,那么 z 的方差,因此在所有方向上都很低.
推广到多个维度,我们看到,如果 的所有分量 都具有较小的方差,那么 的所有特征值 都必须很大 因此,为了获得理想的方差,矩阵的属性必须经过良好的条件处理 这就是前面提到的“意义”,矩阵必须“大”才能使方差小。
从上面我们可以看到,一个小的特征值有能力使 large 的所有分量的方差 在下一个讲座中,我们将介绍伪逆,它可以减轻小特征值破坏所需方差属性的影响 .
让我们从不同的角度来研究这个概念我们回到回归方程
其中我们看到观测值 b 受到噪声n 的扰动,噪声 n 具有给定的噪声功率:如果 的特征值 相对较大,则 的奇异值 很大。那么 x 的变化以补偿 n 的变化,使其保持最小,这相对较小。另一方面,如果 A 的奇异值 相对较小,则需要 x 的较大变化 来补偿 由于噪声引起的 b 变化 估计 x 的方差是 x 的估计值 总体相对于所有可能的噪声样本的变异量 所以我们再次看到,如果所有奇异特征值都很大,那么x 很小,反之亦然。
我们在以下定理中总结了前面的讨论,该定理已经被证明是合理的。
定理 2 如果 的至少一个特征值 较小,并且关联的特征向量沿 x 轴具有显著分量,则最小二乘估计将具有较大的方差。
2.1.4.5 最大似然属性
在这种情况下,最小二乘估计是 为了显示这一特性,我们首先研究 n = Ax – b 的概率密度函数,对于更一般的情况给出,其中
(2.1.45)
条件 pdf p(b|x) 描述了观测值 b 中由于噪声而发生的变化,假设 A 是一个已知的常数,并且 x 被赋予了它的真实值.
生成观测值 b 的物理机制或过程采用根据 (2.1.45) 分布的随机噪声样本,并将它们与 Axo 值相加。 生成过程将值 Axo 或仅 xo 常量视为,但将 n 和 b 视为随机变量.
但是现在让我们考虑观察或接收 b 的过程 观察 b 现在是一个常数,因为它是一个测量量 Nowxo 是未知的,但需要估计 因此我们将相关的量 x 视为变量 这与生成过程的情况恰好相反.
为了根据观察 b 估计 xo 的值,我们使用了一个简单但非常优雅的技巧。我们选择最有可能引起观察 b 的 x 值 这是 x 的值,其中 (2.1.45) 给出的 pdf 对于变化 x 是最大的,其中 b 保持在观察到的值,而不是像生成器那样在 x 常数和 b 变量下保持恒定 x 的值 x 的值在其观测值上最大化 (2.1.45) b 常数被称为 x 的最大似然估计,它是一种非常强大的估计技术,并且在几篇文章中讨论了许多理想的特性.
请注意,从 (2.1.45) 中可以看出,如果那么使 概率 p(b|x) 作为 x 的函数是 xLS。 这是因为 xLS 根据定义是 x 的值,在这种情况下,它最小化了 (2.1.45) 中指数的二次形式。 它也是 p(b|(2.1.45) 中的 x) 是最大值因此,xLS 是 x 的最大似然估计 .
2.1.5 线性最小二乘估计和 Cramer Rao 下界
在本节中,我们讨论了 Cramer-Rao 下限 (CRLB) 与线性最小二乘估计之间的关系:我们首先讨论 CRLB 本身,然后继续讨论 CRLB 与白噪声和彩色噪声中的线性最小二乘估计之间的关系.
2.1.5.1 Cramer Rao 下限
在这里,我们假设观察到的数据 b 是从模型 (2.1.29) 生成的,对于噪声 n 是联合高斯零均值过程的特定情况 为了解决 CRLB,我们考虑一个矩阵 J 定义为
(2.1.46)
(2.1.47)
使用 Sect.2.1.4.1 和 2.1.4.2,很容易表明
(2.1.48)
由 (2.1.48) 定义的矩阵 J 称为费舍尔信息矩阵 现在考虑一个矩阵 U,它是参数估计的协方差矩阵,通过一些任意估计过程获得,即,其中 是由一些任意估计器获得的 x 的一些估计.
然后
(2.1.49)
其中 jii 表示 J 逆的第 (i,i) 个元素因为协方差矩阵的对角线元素是各个元素的方差,所以告诉我们由某个任意估计器获得的估计值的单个方差大于或等于 J-1 的相应对角线项。因此,CRLB 对方差的低限度设置了一个下限,而不管估计过程有多好.
2.1.5.2 白噪声的最小二乘估计和 CRLB
使用 (2.1.45),我们现在评估根据 (2.1.11) 的线性回归模型生成的数据的 CRLB,对于白噪声的特定情况,也就是说,如果我们观察服从模型 (2.1.11) 的数据,则 (2.1.26) 从 (2.1.48)、
(2.1.50)
比较 (2.1.50) 和 (2.1.36),我们看到 LS 估计的协方差矩阵满足CRLB 的相等性。因此,除了 (1) - (3) 下的 LS 估计器之外,没有其他估计器可以阻止。这是线性最小二乘估计的一个非常重要的特征:因此,我们将 LS 估计器称为最小方差无偏估计器 (MVUB)。
2.1.5.3 彩色噪声的最小二乘估计和 CRLB
在这种情况下,我们认为是一个任意协方差矩阵,即 。 通过代入 (2.1.45) 并进行评估,我们可以很容易地表明这种情况的 Fisher 信息矩阵 J 由下式给出
(2.1.51)
现在,对于有色噪声情况,我们开发了对应于 (2.1.36) 的 LS 估计值的协方差矩阵版本 假设我们使用正态方程 (2.1.23) 来生成该有色噪声情况的估计值 xLS 使用与第 10.6 节相同的分析,除了使用instead to 和以前一样,我们得到:
(2.1.52)
请注意,在这种情况下,估计值的协方差矩阵不等于 from (2.1.51)。在这种情况下,from (2.1.51) 表示 CRLB,这是 xLS 元素的最小可能方差,因为 (2.1.52) 不等于相应的 CRLB 表达式,所以当常常正态方程 (2.1.23) 用于有色噪声时,xLS元素的方差不是最小可能 因此,常常正态方程在有色噪声中不给出 MVUE.
然而,我们现在表明,如果已知,我们可以通过预先白化噪声来改善这种情况。设其中 G 是 Choleski 因子,然后将 (2.1.11) 的两边乘以 G-1,噪声被白化,得到
(2.1.53)
使用上述作为回归模型,并替换 (2.1.23) 中的 A 和 b,我们得到:
(2.1.54)
与该估计相对应的协方差矩阵如下我们可以写成
(2.1.55)
代入 (2.1.56) 和 (2.1.54) 进入 (2.1.33) 我们得到
(2.1.56)
请注意,在彩色噪声情况下,当噪声被预先白化时(如 (2.1.53) 中),生成的矩阵 cov(xLS) 等效于 (2.1.51) 中的 J-1,这是 CRLB 的相应形式;即,现在满足边界的相等性,前提是 noise 是预白的.
因此,在存在具有已知协方差矩阵的彩色噪声的情况下,在应用线性最小二乘估计程序之前对噪声进行预白化也会导致 MVUE 为 x我们已经看到,当噪声没有预先白化时,情况并非如此.
2.2 求解最小二乘问题的广义“伪逆”方法
在本次讲座中,我们讨论了使用矩阵的伪逆矩阵解决最小二乘问题的方法:我们首先开发其结构,然后查看其属性。
2.2.1 使用 SVD 的最小二乘法
之前我们已经看到 LS 问题可能被提出为
其中观察 值是从回归模型生成的:对于 满秩的情况,我们看到求解的解由正态方程给出
如果矩阵是rankdeficient,则不存在正态方程的唯一解。有无限的解决方案可以最小化 但是, 如果我们在一组满足 中选择 该值,则我们可以生成一个独特的解决方案,该值 本身具有最小范数。因此,whenisrankdeficient是两个 2 范数最小化过程的结果。第一个确定一个集合,其中 which最小化,第二个确定elementofforwhich是最小值。
在这方面,我们开发了矩阵的伪逆矩阵。伪逆给出的解决方案是这两个 2 范数最小化程序的解决方案。 当矩阵为满秩或秩不足时,它可用于求解最小二乘问题。下面的过程揭示了最小二乘法分析的一些非常有趣的方面,我们稍后将探讨这些方面。
我们得到 和 。 如果 的 svd 为 ,那么我们将 定义为 定义的伪逆
矩阵的关联方式如下。如果
then
其中 and 以适当的方式填充零以保持维度一致性。
定理 1:当秩不足时,唯一最小化的解 ,即最小值,由下式给出
这里的 w 由方程 2.2.3 定义。此外,我们还
证明:对于我们拥有的
W在这里
一个nd
一个nd
请注意,我们可以用 2.2.7 的形式写出量,因为2-范数对正交变换 是不变的,而插入在 和 之间的量是相同的 .
从 2.2.8 中,我们可以立即得出以下几个结论: :
1. 由于 2.2.8 中矩阵右列中的零块,我们看到解独立于 Thereforeis 任意.
2. 由于 2.2.8 左侧的参数 是一个向量,因此可以表示为
因此,2.2.8 通过 选择 satisfy 来最小化
请注意,这个事实是显而易见的,而不必诉诸繁琐的微分,这是因为 svd 揭示了许多关于潜在问题的结构.
3. 从方程 2.2.9 中,我们有 。因此,
显然 是最小值 .
4. 结合我们对 和 的定义,我们有
这可以写成
或
这是要展示的。此外,我们可以从它的下半部分说
请注意,即使 is singular 也被定义.
前面的分析揭示了奇异值分解的相关优点 svd 立即揭示了矩阵结构的大量信息,因此允许相对简单地开发伪逆解例如,在最小二乘分析中使用 svd 时,我们可以看到在秩不足的情况下,我们 可以在不挂起 C的情况下将任何 vector 添加到 to。 此外,很容易确定残差向量位于空间 .
2.2.2 伪逆的解释
2.2.2.1 几何解释
现在让我们再看一下最小二乘的几何学它显示了一个简单的 LS 问题 我们再次看到, 这是对应于投影 到 事实上代入到表达式中的解,我们得到
但是对于我们从之前关于线性最小二乘法的讨论中了解到的特定情况,
投影仪 在哪里 。比较 2.2.18 和 2.2.19,并注意到 投影仪是独一无二的
因此,矩阵是投影仪.
这也可以以不同的方式看待 ,如下所示:使用我们拥有的定义
您关于 projectorsweknow 的讨论的恒等式在哪里 a nd F rom o 也是projectoron to whichhisthesame作为 .
我们还注意到,对于这种情况,矩阵是 .
2.2.2.2 伪逆解与正态方程的关系
假设,正则方程给我们
但伪逆函数给出:
在满秩情况下,这两个量必须相等 我们确实可以证明这是情况,如下所示 我们让
是 的 ED,我们让 SVD 定义为
利用这些关系,我们有
根据需要,其中最后一行从因此,对于满秩情况,以类似的方式,我们也可以表明对于情况.
2.2.2.3 伪逆作为广义线性系统求解器
如果我们 愿意接受最小二乘解,当线性方程组的常解不存在时(例如,当系统超定时),并且如果我们 能接受唯一解的定义是具有最小 2 范数的解,那么当系统 超过时,无论 是满秩还是秩不足,都会求解系统 确定的平方或下确定。
广义逆 (注意维度是彼此的转置) 必须满足以下 4 个 Moore-Penrose 条件:
很容易证明,由方程 2.2.3 定义的确实满足这些条件.
四个Moore-Penrose 条件等效于矩阵,并且分别被投影到列空间 (for ) 和行空间 (for ) 上我们大致说明如下:回想一下,一个projector matrix必须具有第 4 节中概述的三个特定属性。从上面的条件 i) 中,我们有 which 意味着根据需要跨越 的列,这是投影仪的必需属性之一。条件iii) 和iv)直接导致投影机的对称性 幂等性源自多重前或后多重 i) 或 ii) 通过或酌情获得 .