笔记+个人理解 线性代数导论 – Gilbert Strang

[TOC]

1. The geometry of Linear Equations

对于一个方程组,有多种理解方式,如下方程组

$\left{
\begin{aligned}
x-y=1 \
x+2y=3
\end{aligned}
\right.
$

上述方程组可以表示为如下的矩阵相乘的形式

$$
\begin{bmatrix} 1 & -1 \ 1 & 2 \end{bmatrix}
*

\begin{bmatrix} x \ y \end{bmatrix}

\begin{bmatrix} 1 \ 3 \end{bmatrix}
$$

上述矩阵,实际上$\begin{bmatrix} x\ y \end{bmatrix}$在以左侧矩阵列空间为基的空间中的一种映射,表示为线性组合的形式为

$$
x * \begin{bmatrix} 1 \1 \end{bmatrix}
+

y * \begin{bmatrix} -1 \ 2 \end{bmatrix}

\begin{bmatrix} 1 \ 3 \end{bmatrix}
$$

行空间的图像:对上述方程组所表示的两条直线作图,两条直线的交点是我们要求的$x$和$y$
列空间的图像:列空间中,每一列代表了新空间中的一个基base向量,$x$和$y$分别代表了所对应的列向量的系数,在列空间的图像中,实际上我们要找的是如何通过组合$\begin{bmatrix} 1 \1 \end{bmatrix} $和$\begin{bmatrix} -1 \ 2 \end{bmatrix}$来得到$\begin{bmatrix} 1 \ 3 \end{bmatrix}$

如何理解矩阵乘法

本质:$A*B$可以看做是B中的列向量以A的所有列向量为基所得到的在单位矩阵中的表示形式,或者可以看做是$A$中的行向量以B的所有行向量为基所得到的在单位距震中的表示形式

最简单的矩阵乘法即两个向量的点积$\begin{bmatrix} a & b \end{bmatrix} * \begin{bmatrix} e \ f \end{bmatrix}$

在这里,为了便于理解,以矩阵与向量相乘为例简单探讨矩阵的乘法

$$\begin{bmatrix} a & b \ c & d\end{bmatrix} * \begin{bmatrix} e \ f \end{bmatrix}$$

矩阵乘法,可以看做是右侧矩阵中的向量在左侧矩阵所表示的空间的映射。矩阵,实际上是一种空间的表示方法。根据看待的视角不同,矩阵空间可以被看做是行空间或列空间,前者是指以行向量为基所表示的空间,而后者是指以列向量为基所表示的空间。

$\begin{bmatrix} 1 & 0 \ 0 & 1 \end{bmatrix}$是我们最熟悉的表示空间的矩阵,以列空间为例,基向量为$\begin{bmatrix} 1 \ 0 \end{bmatrix}$和$\begin{bmatrix} 0 \ 1 \end{bmatrix}$。这两个向量分别代表x轴和y轴中的两个单位向量,我们可以基于这两个基向量的线性组合表示该空间中任意一个向量。$\begin{bmatrix} 1 & 0 \ 0 & 1\end{bmatrix} * \begin{bmatrix} e \ f \end{bmatrix}$即表示$\begin{bmatrix} e \ f \end{bmatrix}$在上述列空间中的一种映射,然而由于这种映射如此简单,我们很容易忽略。

$\begin{bmatrix} a & b \ c & d\end{bmatrix} * \begin{bmatrix} e \ f \end{bmatrix}$,回到这个矩阵乘法,该乘法表示了$\begin{bmatrix} e \ f \end{bmatrix}$在左侧矩阵列空间中的一种映射,即通过对列空间中的列向量做线性组合,得到一个新的向量。该线性组合可以表示为$e * \begin{bmatrix} a \ c \end{bmatrix} + f * \begin{bmatrix} b \ e \end{bmatrix}$,通过该乘法运算,我们可以看到,$\begin{bmatrix} e \ f \end{bmatrix}$实际上表示的是所需要的每一个基(维度)的数量,通过组合相应数量的基向量,得到最终的向量。

然而,上述讨论的问题,还需要一个小说明,即在矩阵的表示中,都隐藏了一种假设,即所有矩阵首先是基于标准基空间的,因此$\begin{bmatrix} a & b \ c & d\end{bmatrix}$实际上是$\begin{bmatrix} 1 & 0 \ 0 & 1\end{bmatrix} * \begin{bmatrix} a & b \ c & d\end{bmatrix}$,由于左侧是一个Identity矩阵,因此可以被省略。但是,在这里,加上该假设,有利于理解矩阵想成后的,结果,即想成后得到的向量,实际上是被映射回了标准基空间。若不映射至该空间,则只需要将矩阵乘法写成左侧列向量以右侧向量的分量为系数的线性组合即可,即$e * \begin{bmatrix} a \ c \end{bmatrix} + f * \begin{bmatrix} b \ e \end{bmatrix}$。上述线性组合的描述,实际上也说明了矩阵所代表的物理意义,即每个列向量代表一个空间中的一个基,而要想在该空间中表示一个向量,只需要找到基于该基(Base)的线性组合即可。

让我们看一个实例,向量$\begin{bmatrix} 1 \ 1 \end{bmatrix}$使用标准基空间进行描述,可以表示为$1 * \begin{bmatrix} 1 \ 0 \end{bmatrix} + 1 * \begin{bmatrix} 0 \ 1 \end{bmatrix} $,当然,由于是标准基空间,因此我们通常对这种线性组合视而不见了。假如我们用另外一组基$\begin{bmatrix} 1 \ 1 \end{bmatrix}$和$\begin{bmatrix} 1 \ -1 \end{bmatrix}$来表示当前的二维空间。那么向量$\begin{bmatrix} 1 \ 1 \end{bmatrix}$实际上会被表示为$1 * \begin{bmatrix} 1 \ 1 \end{bmatrix} + 0 * \begin{bmatrix} 1 \ -1 \end{bmatrix} $。用自然语言来描述,将$\begin{bmatrix} 1 & 1 \ 1 & -1 \end{bmatrix}$空间中的$\begin{bmatrix} 1 \ 0 \end{bmatrix}$映射至$\begin{bmatrix} 1 & 0 \ 0 & 1\end{bmatrix}$则为$\begin{bmatrix} 1 \ 1 \end{bmatrix}$

一个向量在不同的空间中可以有不同的表现形式,就如一个点在普通坐标和极坐标中有不同的形式是同样的道理。

2. Elimination 消元法(Gaussian消元法)

Elimination

$\begin{bmatrix} 1 & 2 &1 \ 0 & 2 &-2 \ 0 & 0 & 5 \end{bmatrix}$U:Upper Triangular Matrix。其中(1,1) (2,2) (3,3)位置为Pivot(主元),主元不为0,当出现0的主元时,进行换行操作,找到非0的pivot,如果最终还是出现了0,方程组无解:矩阵无逆矩阵

Back-substitution

Augmented Matrix,把Ax=b右侧的b加入矩阵

Elimination Matrix

用矩阵来表示消元法的具体操作,包括乘以系数并作减法操作,以及换行。

这里牵扯到矩阵的理解,列空间和行空间:矩阵乘以列还是列,行乘以矩阵还是行,注意顺序!当我们从行的角度看时,左侧的向量对右侧的行向量做线性组合。

行空间乘法:

$$\begin{bmatrix}a & a & a\end{bmatrix} * \begin{bmatrix} a & a & a \ b & b & b \ c & c & c\end{bmatrix}$$

列空间乘法:

$$\begin{bmatrix} a & a & a \ b & b & b \ c & c & c\end{bmatrix} * \begin{bmatrix}a \ a \ a\end{bmatrix}$$

3. 逆矩阵

逆矩阵与矩阵相乘得到identity,实际上,逆矩阵将矩阵所做的线性变化抵消掉了

为什么奇异矩阵不可逆

首先,可逆矩阵满足$AA^{-1}=I$,矩阵的乘法,可以看做是左侧列向量的线性组合,对于奇异矩阵,其非满秩,not full rank,即列向量非独立,因此,无论对其做任何线性组合,由于$I$矩阵是满秩矩阵,因此$AA^{-1}$不可能形成$I$矩阵

另外一种证明方式,$Ax=B$,若为奇异矩阵,那么存在x可使$Ax=0$

如何计算逆矩阵

Gauss-Jordan方法:假设要求$\begin{bmatrix}a & b \ c & d\end{bmatrix}$的逆矩阵,可以将其矩阵写为augmented Matrix,即$\begin{bmatrix} a & b & 1 & 0 \ c & d & 0 & 1\end{bmatrix}$

$E * \begin{bmatrix}A & I\end{bmatrix} = \begin{bmatrix}I & A^{-1}\end{bmatrix}$

4. A=LU

假设$AA^{-1}=I$,即A有逆矩阵,那么${A^T}^{-1}$是多少呢?首先,我们对$AA^{-1}=I$做转置,转置后,${A^{-1}}^T*A^T=I^T$,由于$I^T$还是$I$,因此,从前面的公式中可以看到,$A^T$的逆实际上就是${A^{-1}}^T$,因此,对于一个矩阵,求逆和转置的顺序无所谓

$A=LU$,L=Lower Triangular,L中保存的是消元阶段所使用的Multiplier,而$EA=U$中的$E$中,所存的是Multiplier累计后的效果

5. Permutation、Transpose

Permutation Matrix,自身是一个群,在这个群中,他们之间的乘积仍然在该群中,转置和逆矩阵也在该群。

Symmetric Matrix:对称矩阵,来源是$A^TA$,这种情况下会产生对称矩阵,为什么它是对称的?${(A^TA)}^T=A^TA^{TT}=A^TA$

Transpose:做转置的方法$A_{ij}=A^T_{ji}$

6. Space

基本概念

$R^2$:所有的2维实数向量,xy平面
$R^n$:所有的含有n个分量的列向量
Vector Space:加法和标量乘法都是封闭的
sub Space:子空间,依然满足加法和乘法,例如二维空间中的过原点的一条直线空间
非Vector Space:xy平面的第一象限,尽管任意选择两个向量相加依然在这个空间中,但是假如取一个负数标量,则得到的向量不在原始空间中了。

子空间:$R^2$的子空间不包括$R^1$,因为$R^1$只含有一个分量,和$R^2$中的一条过原点的直线不同
空间必过原点,否则无法满足封闭的条件
列空间C(A):由列为基组成的空间,在这个空间中,所有由列向量的线性组合形成的向量都在该空间中

为什么满秩矩阵有逆

逆实际上是对矩阵的列(或行)做线性组合,假如满秩,则其所有列是独立的,因此其可以表示$R^n$的整个空间,在这种情况下,其与单位矩阵$I$所标示的空间是相同的,即存在一种线性组合将该矩阵组合为$I$单位矩阵,这种线性组合就是它自身的逆矩阵

那么也可以说明为什么奇异矩阵没有逆,因为奇异矩阵只能表示$R^n$空间的一种低维子空间,因此总有些维度无法表示,因此没有任何一种线性组合能使其组合出$I$单位矩阵

对于非满秩矩阵,其线性组合不能充满整个多维空间

因为、其线性组合不能组合出所有的情况,转化为方程组来看$Ax=b$,即对于任意右侧的b(即我们想要的所有组合情况),方程组并不是总有解。只有当b是A的线性组合时(即在该子空间中)才有解。

$$A=\begin{bmatrix}1 & 1 & 2 \2 & 1 & 3 \ 3 & 1 &4\ 4&1&5\end{bmatrix}

\begin{bmatrix}x_1 \ x_2 \ x_3\end{bmatrix}

\begin{bmatrix}b_1 \ b_2 \ b_3 \ b_4\end{bmatrix}
$$

Null Space N(A)

$Ax=0$的x所表示的空间,首先肯定包含zero,null space实际包含了所有与A列空间正交的空间

为什么Null Space中的向量可以组成一个,空间?$Av+Aw=A(v+w)=0$

Rank = # Pirovts

Rank可以形象的理解为,使用消元法进行消元时,所形成的矩阵呈阶梯状,每一层阶梯为一个Pivot,也就是一个Rank

Row Echelon Form(简写为U,$Ux=0$): 除了Pivot行,其他行都是0
$$\begin{bmatrix} 1 & 2 & 0 & -2 \ 0 & 0 & 2 & 4 \ 0 & 0 & 0 & 0\end{bmatrix}$$

Reduced Row Echelon Form(简写为R,$Rx=0$):同Row Echelon,但是Pivot全化为1
$$\begin{bmatrix} 1 & 2 & 0 & -2 \ 0 & 0 & 1 & 2 \ 0 & 0 & 0 & 0\end{bmatrix}$$

从矩阵看为什么垂直的向量点积为0

以二维空间中的两个向量为例,首先看最简单的情况,假设有两个向量$a_1=\begin{bmatrix} 3 \ 0 \end{bmatrix}$和$a_2\begin{bmatrix} 0 \ 3 \end{bmatrix}$,由于这两个向量分别处于x轴和y轴,所以他们是垂直的,它们的点积$a_1\cdot a_2=0$。而之所以这两个向量可以写为这种形式,是由于我们潜在的已经假设,当前的空间的两个基是$base_1=\begin{bmatrix} 1 \ 0 \end{bmatrix}$和$base_2=\begin{bmatrix} 0 \ 1 \end{bmatrix}$,即所谓平面直角坐标系中的x轴和y轴所对应的两个正向单位向量。从矩阵的角度看,$a_1$实际上应该写为$a_1=\begin{bmatrix} 1 & 0\ 0 & 1 \end{bmatrix}\begin{bmatrix} 3 \ 0 \end{bmatrix}$,而$a_2$相应的应该写为$a_2=\begin{bmatrix} 1 & 0\ 0 & 1 \end{bmatrix}\begin{bmatrix} 0 \ 3 \end{bmatrix}$因此$a_1$本质上是$3base_1$,而$a_2=base_2$。那么两个向量为什么垂直呢?因为这两个向量分别由两个垂直的基的单独做线性组合而成。

接下来看一组不那么清晰地垂直的向量:$b_1=\begin{bmatrix} 3 \ 3 \end{bmatrix}$和$b_2\begin{bmatrix} -3 \ 3 \end{bmatrix}$。当我们将向量描述为上述形式时,我们依然假设当前的基为$base_1=\begin{bmatrix} 1 \ 0 \end{bmatrix}$和$base_2=\begin{bmatrix} 0 \ 1 \end{bmatrix}$。因此,从矩阵映射的角度看,上述两个向量可以写为$\begin{bmatrix} 1 & 0 \ 0 & 1 \end{bmatrix}\begin{bmatrix} 3 & -3 \ 3 & 3 \end{bmatrix}$,假如我们换另外一组垂直的基,那么这个矩阵还可以写为这种形式$\begin{bmatrix} 1 & -1 \ 1 & 1 \end{bmatrix}\begin{bmatrix} 3 & 0 \ 0 & 3 \end{bmatrix}$。实际上,我们所选择的基是与向量$b_1$和$b_2$所在同一空间的向量。在这种情况下,我们将$b_1$与$b_2$两个向量相乘,根据结合律,实际上可以把左侧的矩阵单独提出来,这时候$b_1\cdot b_2=\begin{bmatrix} 1 & -1 \ 1 & 1 \end{bmatrix} * (\begin{bmatrix} 3 & 0 \end{bmatrix} * \begin{bmatrix} 0 \ 3 \end{bmatrix})$,从而我们可以清晰地看到,点积的运算结果为0。

另外一种理解:$a_1\dot a_2$可以看做是以$a_1$中的列向量为基来表示$a_2$,由于$a_1$与$a_2$正交,因此$b_1$映射至$a_1$中表现出来为0向量,也就是说$a_2$在$a_1$的Null Space

如果用一句话概括一下,任何两个垂直的向量,都可以被某一组正交的基所表示,从而得到$\begin{bmatrix} a \ 0\end{bmatrix}$和$\begin{bmatrix} 0 \ b\end{bmatrix}$这种形式,从而使得我们一眼可以看出他们的点积结果为0

7. Ax=b

当b在C(A)中时,即b是A的列的线性组合时,Ax=b有解。

Ax=b的解,先求一个特解,加上Ax=0的Null Space即可

当A满秩时,即r=m=n:Ax=b有唯一解,因为b有一个A列向量的唯一的线性组合
当A列满秩时,r=n<m:Ax=b可能无解,也可能有唯一解,唯一解的情况是b恰巧是A列向量的线性组合,即在A的列空间中
当A行满秩时,r=m<n:Ax=b有无限多个解,因为有无限多种线性组合可以组成b
当A列行都非满秩时,即r<m并且r<n时,Ax=b可能无解

8. 线性独立、Span a space、Dimension

Independence

对于$x_1,x_2,…,x_n$向量,假如他们的线性组合可以组成0向量,那么他们是Dependent。

独立与0空间的关系:假如$Ax=0$有解,即有Null Space,那么列向量是非独立的。假如$Ax=0$无解,即A的0空间只包含0向量,则列向量是独立的

理解:假设$cx_1+c_2x_2=-c_3x_3$,则$x_3$是$x_1$和$x_2$的线性组合,那么就不是独立的

Span a space

$x_1,x_2,…,x_n$向量Span a space表示该空间包含所有这些向量的线性组合。该空间应该是满足这个条件的最小空间。

Basis基

对于一个空间,Basis指一系列向量,这些向量符合两个条件:

  1. 它们是独立的
  2. 它们可以Span该空间

对于一个确定的空间,所有的Basis含有相同数量的向量,这个数量被称为维度

Dimension

空间的基所含向量的数量

注意语言:

矩阵A的秩=A列空间的维度=主元列的数量

9 4个空间

Column Space:$C(A)$
Row Space: $C(A^T)$
Null Space: $N(A)$
Left Null Space: $N(A^T)$

$E\begin{bmatrix} A & I\end{bmatrix}=\begin{bmatrix}R & E\end{bmatrix}$

R:Reduce row echelon form

10. 矩阵空间

矩阵空间和向量空间的思想是一致的,只不过基不再是向量,而变成了矩阵。可以把一个3*3的矩阵想象成一个9个分量的向量。

空间运算只包括加减法,即线性组合

所有对称矩阵可以形成一个矩阵空间,所有Upper Triangular也可以

$dim(U)+dim(S)=dim(U\cap S)+dim(U\cup S)$

11. Graph and Network

Incidence Matrix:

回路(loop)对应的是dependent rows

$A^T y=0$Kirchoff’s current law

没有回路的graph是一个tree

#nodes-#edges+#loops=1

13.复习

为什么Null Space或者说Ax=0的解计算方式是确定前面几个维度后加上 $\begin{bmatrix}1 \ 0 \ 0\end{bmatrix}$ $\begin{bmatrix}0 \ 1 \ 0\end{bmatrix}$ $\begin{bmatrix}0 \ 0 \ 1\end{bmatrix}$

存在非零的null space,说明Ax=0有解,即A的列是dependent,只有dependent时,列的线性组合才能得到0,这也是dependent的定义。dependent可以理解为,任选一列,可以由剩余的列通过线性组合得到该列。假如A的rank为r,column的数量为c,那么,Column中有r个column是独立的,换句话说,如果调出独立的column,剩余的任何一个column都可以由这r个column用线性组合构成。问题中加入的几个向量,实际上每个向量代表了剩余c-r个column中的一个与前面r个独立column所做的线性组合,只不过他们线性组合结果为0,也就是Ax=0的一个解。

理解null space的basis构成的关键在于理解,r个column可以通过线性组合组合成剩余的任何一个column,这也就是题目里任何一个1而其他是0的原因,这里的1代表的是其中一个column。

为什么$Ax=B$的结果为x=特解+null space的解?

得到特解($x_p$)后,即$Ax_p=B$,那么任意加上null space的结果($x_n$),还可以得到$Ax=B$,即$Ax_p+x_n=B$

14. Orthogonal正交

空间A与空间B正交,意味着,空间A中的任何一个向量与B中的任何一个向量正交,正交即垂直,内积为0

$row\ space\perp column\ space$
$column\ space\perp null\ space\ of\ A^T$

在三维空间中,假如给定了一条直线,那么与它orthogonal的空间是一个过原点的平面,过原点很重要,如果不过原点,它就不是一个子空间。因此,在3维空间中,有无限个平面可以与一条直线orthogonal,但是如果要找子空间,就只有一个

15. 投影

核心问题:假设$Ax=b$,如何求得最优x。

该等式无解,说明B不在A的列空间中,即A的列无法通过线性组合得到B,在这种情况下,我们能得到的最优解,是b在A的列空间上的投影。

为什么它是最优解?

  1. $Ax$所能得到的最优解,一定在A的列空间中,因此,一定是A的列的线性组合,假设我们能得到的最优解是$b’$,那么我们要求的是$Ax=b’$
  2. 最优则要求$b’$和$b$的差异最小。差异最小,形式化的看就是$min|b-b’|$,即两者的差(error)最小,或者说$b-b’$这个向量的长度最短
  3. 既要满足条件1是A的线性组合,又要满足条件2长度最短,实际上表明了$b-b’$是垂直于A的列空间的一个向量,因此$b’-b$与A的列的点积为0,也就是说,$b’-b$与A的列空间的一组基的所有向量都正交,形式化的表示即$A^T(b’-b)=0$,$A^T$出现在这里,表现的是A的列变为行,其实$A^T$的行空间就是$A$的列空间,从而根据矩阵的乘法可以与$b’-b$做点积运算,因为$b’-b$是列,当列在矩阵乘法的右侧时,既可以看作是左侧A矩阵的列的线性组合,也可以看作是与行做点积
  4. 满足上述条件的向量$b’$只有b在A上的投影
  5. 值得注意的是,error(e)实际上就是在$A^T$的null space中,即$e\perp N(C)$

明确了上述问题,我们要求的问题可以转化为$A^T(Ax-b)=0$,除了x其他量均已知,因此可求。即$x=(A^TA)^{-1}Ab$,实际上这个公式是在求b的投影,那么投影$p=Ax=A(A^TA)^{-1}Ab$,其中$A(A^TA)^{-1}A^T$被称为投影矩阵

既然有上式,投影矩阵是否可以写成$AA^{-1}{A^T}^{-1}A^T$

不可以,因为A不是invertible的,它是一个singular matrix,其实假如A是可逆的,那么投影矩阵就是identity矩阵

$A_TA$ is invertible if columns of A are independet

投影矩阵:$P^T=P$,并且$PP=P$

16. 最小二乘

假如b在column space中,那么$Pb=b$,P是投影矩阵
由于b在column space中,因此可以表示成$Ax$,那么$Pb=A(A^TA)^{-1}A^TAx=Ax$

最小二乘法做线性回归时,牵扯连个image,一个是原始的,一个是vector的

当A的列线性独立时,证明$A^TA$是可逆的

Intuition:假设$A^TAx=0$且$A^TA$为可逆的,那么x肯定是0,因为$A^TA$可逆表示它的null space为0维

方法1:两边同时乘以$x^T$,那么$x^TA^TAx=0$,然后$(x^TA^T)Ax=0$,本式表示Ax的长度为0,而根据题目,A的列是独立的,那么Ax=0,只有可能是x为0

17.orthonormal matrix

$Q^TQ=I$

假如Q是方阵,那么$Q^T=Q^{-1}$,因为每一个列都和其他列垂直,只能和自己所述的列求得1,因此最终会形成一个Identity Matrix

假如A是Q,那么$x^TAx=A^Tb$变为$Q^TQx=Q^Tb$,因为$Q^TQ=I$,因此$x=Q^T$,那么投影矩阵就是它本身

Gram Schimt法:获得orthonormal matrix

假设有两个向量,确定其中一个$a$,将$b$投影到$a$上得到$b’$,然后$b-b’$即为垂直于$a$的向量,然后除以其长度即为正交向量

$A=QR$用来表示Gram Schimit方法,R中的列,代表了Q的列线性组合,因为Q是orthonormal,所以R里面的量是垂直向量的线性权重,R是一个Upper Triangular矩阵

18. Determinant

$det A=|A|$,行列式为0,则矩阵为singular,行列式非0,则invertible

行列式的属性
1. $det I=1$
2. 行交换后,行列式的符号变换。$detP$是1或者-1,P表示permutation
$\begin{vmatrix} 1 & 0 \ 0 & 1\end{vmatrix}=1 $
$\begin{vmatrix} a & b \ c & d\end{vmatrix}=ad-bc $
3.
– a.$\begin{vmatrix} ta & tb \ c & d\end{vmatrix}=t\begin{vmatrix} a & b \ c & d\end{vmatrix}$,这里的重点在于,只有一行变化,而不是对所有行都乘以一个值,如果所有行都乘以t,那么最终的特征值需要乘以$t^n$
– b.$\begin{vmatrix} a+a’ & b+b’ \ c & d\end{vmatrix}=\begin{vmatrix} a & b \ c & d\end{vmatrix}+\begin{vmatrix} a’ & b’ \ c & d\end{vmatrix}$
4. 如果两个row相等,那么行列式=0
5. substract l*row from row DET不变
6. 0作为row,那么行列式=0
7. 假设有一个U(upper triangular)矩阵,行列式为对角线上的元素的乘积,这实际上是一个计算行列式的好方法,首先做elimination,然后直接求,即products of pivots
8. 当A是奇异矩阵时,DetA=0
9. detAB=(detA)(detB),$detA^{-1}=\frac{1}{detA}$,恰好可以证明invertible和singular,因为singular matrix的行列式为0,不能取倒数
10. $detA^T=detA$,证明:
$\begin{align}|A^T|=|A| \ |U^T L^T|=|UL| \ |U^T| |L^T|=|U||L|\end{align}$
最后一步的原因在于,U和L有一半是0,因此只有对角线的值会影响行列式

理解行列式

行列式是以N个向量为输入,以一个数值为输出的一个函数。他具备1、2、3条件。对于行列式,重要的一点是,它与矩阵中的每一行存在线性关系(determinant is linear in each row)。

从几何的角度看,想想一个3维空间中的单位立方体,该立方体可以表示为一组标准基,假设他的其中一条边为0,那么体积为0.假如只变动一个方向的边,那么体积也会相应乘以这个变化标量。

19. 行列式的计算公式

利用性质1、2、3、4即可完成

代数余子式cofactor:对于某个元素,去掉本行,本列,剩余矩阵的行列式

20. 行列式的应用

逆和行列式的关系

$As^{-1}=\frac{1}{detA}C^T$,C= cofactor matrix

Cramer’s Rule

$Ax=b$
$x=A^{-1}b=\frac{1}{detA}C^Tb$
$X_1=\frac{detB_1}{detA}$
$B_1$是第一列为$b$,其余列为$A$剩余列的矩阵
$B_j$为A with colum replaced by b

Cramer法则的意义在于,可以让我们以代数而不是算法的形式(消元算法)来理解如何求得$Ax=b$,在实务中并不是一个省油的方法

行列式和体积的关系

$|detA|$是以row为顶点的box的体积

最容易理解的是Identity Matrix,结果显而易见,它是一个单位cube
Q矩阵,即Orthonormal Matrix,因为
$\begin{align}Q^TQ=I \ |Q^T||Q|=|I| \ |Q|^2=1 \end{align}$

21. 特征值

特征向量:Ax与x平行,即$Ax=\lambda x$

n*n矩阵有n个eigenvalue

λ的和Trace迹=对角线上元素的和
$\lambda$的积=行列式

求解$Ax=\lambda x$,重写为$(A-\lambda I)x=0$,首先$A-\lambda x$必须为奇异矩阵,因此$det(A-\lambda I)=0$,求得$\lambda$后,只需要用消元法即可得到特征向量$x$

假设我们有一个矩阵A,假如$Ax=\lambda x$,$(A+3I)x=\lambda x + 3x=(\lambda+3)x$,即特征向量不变,特征值变化。这里的重点在于,加上的是一个I矩阵,不是任意的矩阵。对于普通矩阵,其特征值不存在线性关系

Anti-Symetric Matrix会有复数特征值,antiSymettric Matrix指$\begin{bmatrix} 0 & 1 \ -1 & 0 \end{bmatrix}$形式的矩阵,完全不对称,两边完全相反

三角矩阵会含有相同的特征值,从而可能存在重复的特征向量,Identity矩阵是个好例子,他的特征值为1,但是有无数的特征向量

22. 矩阵对角化

$S^{-1}AS=\Lambda$或者描述为$A=S\Lambda S^{-1}$,其中S是以特征向量为列的矩阵,前提是特征向量要是独立的,只有这样,S才是可逆的

$AS=S\Lambda$,其中$\lambda$是一个对角矩阵

假如$Ax=\lambda x$,那么$A^2x=\lambda Ax=\lambda^2 x$,即$A^2$的特征值是$A$的特征值的平方,而特征向量不变,另外一种证明方法:$A^2=S\Lambda S^{-1}S\Lambda S^{-1}=S\Lambda^2 S^{-1}$。上述性质可以推广到$A^k$

特征向量使我们可以更好地理解矩阵的乘方,矩阵的乘方只与特征值有关,假如一个矩阵的k次方无限接近于0,那么他的特征值的绝对值小于1。理解:特征向量代表了增长速度

当一个矩阵的$\lambda$都不同时,它含有n个独立的特征向量,只有这样才能对角化

既然我们得到一个矩阵的特征向量,那么对于一个矩阵乘以任何一个向量,都可以分解为特征向量的线性组合,其系数包含了特征值。

假如一个向量以线性形式动态增长,那么求得它的增长形势的关键是找到对应矩阵的特征值和特征向量,其最大的特征值代表了其增长的速度

24. 特征值应用:马尔科夫矩阵、傅里叶级数

马尔科夫矩阵
1. 所有entry代表概率,因此都>0
2. all columns add to 1

特性:
1. 一定含有一个$\lambda=1$的特征值
– 证明:$A-1I$为Singular,他们的列的entry加起来为0
2. 其他特征值的绝对值<1

特性:A和$A^T$的特征值是相同的,只是特征向量不同

傅里叶级数

首先,$Q$矩阵是orthonormal matrix,可以用其所有的列表示任何一个vector

$Fourier Series=a_0+a_1cosx+b_1sinx+a_2cose2x+b_2sin2x$

基为$1$,$cosx$,$sinx$ ,$cox2x$,$sin2x$,他们是正交的

26. 对称矩阵、正定矩阵

对称矩阵

  • 特征值是实数
  • 特征向量是垂直的

Spectral Thereom:对矩阵分解,分解成完全不同的几部分,即垂直的特征向量

对于普通矩阵,$A=S\lambda A^{-1}$假如$A=A^T$,那么$A=Q\lambda Q^{-1}=Q\lambda Q^T$。

对于对称矩阵,主元的符号和特征向量的符号是一样的

正定矩阵Positive Definite matrix

对称矩阵中那些特征值>0的矩阵
主元>0
所有子行列式>0

27. 正定矩阵

正定矩阵的条件:$x^TAx>0$ for every x

半正定矩阵:有一个特征值为0,是一个奇异矩阵

非正定矩阵的$x^TAx$的图像是一个鞍型,正定矩阵为碗型

pivot是最终函数的系数,因此pivot是正数,表示函数>0

28. SVD奇异值分解

将矩阵分解为orthonormal矩阵、对角矩阵和orthonormal矩阵

$AV=U\Sigma$
$A=U\Sigma V^{-1}=U\Sigma V^T$
$A^TA=V\Sigma ^T U^TU\Sigma V=V\Sigma ^2 V^T$
最后这个是$A^TA$的分解,$A^TA$是一个对称矩阵

U矩阵是A的行空间和null space的orthonormal basis
V矩阵是A的列空间和null spaceof $A^T$的orthonormal basis

发表评论

电子邮件地址不会被公开。 必填项已用*标注