A A A 是对称的时候, A x = λ x Ax=\lambda x Ax=λx 有什么特殊的呢?

1. 对称矩阵的分解

A = S Λ S 1 A = S\Lambda S^{-1} A=SΛS1
A T = ( S 1 ) T Λ S T A^T = (S^{-1})^T\Lambda S^{T} AT=(S1)TΛST

如果 A A A 是对称矩阵,也就是 A = A T A=A^T A=AT。对比以上两个式子,我们可以得到 S 1 = S T S^{-1}=S^T S1=ST,也就是 S T S = I S^TS=I STS=I特征向量矩阵 S S S 是正交的

对称矩阵具有如下的性质:

  • 它们的特征值都是实数
  • 可以选取出一组标准正交的特征向量

每个对称矩阵都可以分解为 A = Q Λ Q 1 = Q Λ Q T A=Q\Lambda Q^{-1}=Q\Lambda Q^T A=QΛQ1=QΛQT Λ \Lambda Λ 中为实数的特征值, S = Q S=Q S=Q 中为标准正交的特征向量。

  • 例 1

A = [ <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 4 </mstyle> ] A = \begin{bmatrix} 1&amp;2 \\2&amp;4\end{bmatrix} A=[1224]

A λ I = [ <mstyle displaystyle="false" scriptlevel="0"> 1 λ </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 4 λ </mstyle> ] A-\lambda I = \begin{bmatrix} 1-\lambda&amp;2 \\2&amp;4-\lambda\end{bmatrix} AλI=[1λ224λ]

d e t ( A λ I ) = ( 1 λ ) ( 4 λ ) 4 = λ 2 5 λ = 0 det(A-\lambda I) = (1-\lambda)(4-\lambda)-4=\lambda^2-5\lambda=0 det(AλI)=(1λ)(4λ)4=λ25λ=0

特征值和特征向量分别为:

λ 1 = 0 x 1 = [ <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> ] \lambda_1 = 0,x_1 = \begin{bmatrix} 2 \\ -1 \end{bmatrix} λ1=0x1=[21]

λ 2 = 5 x 2 = [ <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> ] \lambda_2 = 5,x_2 = \begin{bmatrix} 1 \\ 2 \end{bmatrix} λ2=5x2=[12]

特征向量 x 1 x_1 x1 位于零空间,特征向量 x 2 x_2 x2 位于列空间。有子空间基本定理可知,零空间正交于行空间,这里 A A A 是对称矩阵,所以列空间和行空间是一样的,因此两个特征向量是垂直的。而要得到标准正交向量,我们只需再除以它们各自的长度即可。所以有:

Q Λ Q T = 1 5 [ <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> ] [ <mstyle displaystyle="false" scriptlevel="0"> 0 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 0 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 0 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 5 </mstyle> ] 1 5 [ <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> 2 </mstyle> ] = A Q\Lambda Q^T=\frac{1}{\sqrt5}\begin{bmatrix} 2&amp;1 \\-1&amp;2\end{bmatrix}\begin{bmatrix} 0&amp;0 \\0&amp;5\end{bmatrix}\frac{1}{\sqrt5}\begin{bmatrix} 2&amp;-1 \\1&amp;2\end{bmatrix} =A QΛQT=5 1[2112][0005]5 1[2112]=A

一个实对称矩阵的所有特征值都是实数。

证明

实数的共轭还是它本身,两个数积的共轭等于共轭的积,即 <mover accent="true"> A B </mover> = <mover accent="true"> A ˉ </mover> <mover accent="true"> B ˉ </mover> \overline{AB}=\bar A \bar B AB=AˉBˉ

<mlabeledtr> <mtext> (1) </mtext> A x = λ x <mover accent="true"> A ˉ </mover> <mover accent="true"> x ˉ </mover> = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> A <mover accent="true"> x ˉ </mover> = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> </mlabeledtr> \tag{1}Ax=\lambda x \to \bar A\bar x=\bar \lambda\bar x \to A\bar x=\bar \lambda\bar x Ax=λxAˉxˉ=λˉxˉAxˉ=λˉxˉ(1)

对 (1) 进行转置可得

<mlabeledtr> <mtext> (2) </mtext> <mover accent="true"> x ˉ </mover> T A T = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> T <mover accent="true"> x ˉ </mover> T A = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> T </mlabeledtr> \tag{2}\bar x^TA^T=\bar \lambda\bar x^T \to \bar x^TA=\bar \lambda\bar x^T xˉTAT=λˉxˉTxˉTA=λˉxˉT(2)

A x = λ x Ax=\lambda x Ax=λx 乘以 <mover accent="true"> x ˉ </mover> T \bar x^T xˉT,将 (2) 式乘以 x x x,可得

<mlabeledtr> <mtext> (3) </mtext> <mover accent="true"> x ˉ </mover> T A x = λ <mover accent="true"> x ˉ </mover> T x </mlabeledtr> \tag{3}\bar x^TAx=\lambda \bar x^Tx xˉTAx=λxˉTx(3)

<mlabeledtr> <mtext> (4) </mtext> <mover accent="true"> x ˉ </mover> T A x = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> T x </mlabeledtr> \tag{4}\bar x^TAx=\bar \lambda\bar x^Tx xˉTAx=λˉxˉTx(4)

由于右边为向量长度的平方,因此不为零。对比 (3) 、(4) 两式可得 <mover accent="true"> λ ˉ </mover> = λ \bar \lambda= \lambda λˉ=λ,所以对称矩阵的特征值一定为实数。

一个实对称矩阵的所有特征向量(对应于不同特征值)是正交的。

证明

假设有 A x = λ 1 x Ax=\lambda_1 x Ax=λ1x A y = λ 2 y Ay=\lambda_2 y Ay=λ2y,并且 λ 1 <mpadded width="0px"> ̸ </mpadded> = λ 2 \lambda_1 \not = \lambda_2 λ1̸=λ2,那么

( λ 1 x ) T y = ( A x ) T y = x T A T y = x T A y = x T λ 2 y (\lambda_1 x)^Ty = (Ax)^Ty=x^TA^Ty=x^TAy=x^T\lambda_2y (λ1x)Ty=(Ax)Ty=xTATy=xTAy=xTλ2y

等式左边为 x T λ 1 y x^T\lambda_1y xTλ1y,等式右边为 x T λ 2 y x^T\lambda_2y xTλ2y,因为 λ 1 <mpadded width="0px"> ̸ </mpadded> = λ 2 \lambda_1 \not = \lambda_2 λ1̸=λ2,所以有 x T y = 0 x^Ty=0 xTy=0,也即两个特征向量垂直。

  • 例 2

A = [ <mstyle displaystyle="false" scriptlevel="0"> a </mstyle> <mstyle displaystyle="false" scriptlevel="0"> b </mstyle> <mstyle displaystyle="false" scriptlevel="0"> b </mstyle> <mstyle displaystyle="false" scriptlevel="0"> c </mstyle> ] A = \begin{bmatrix} a&amp;b \\b&amp;c\end{bmatrix} A=[abbc]

特征向量分别为:

x 1 = [ <mstyle displaystyle="false" scriptlevel="0"> b </mstyle> <mstyle displaystyle="false" scriptlevel="0"> λ 1 a </mstyle> ] x_1 = \begin{bmatrix} b \\ \lambda_1-a \end{bmatrix} x1=[bλ1a]

x 2 = [ <mstyle displaystyle="false" scriptlevel="0"> λ 2 c </mstyle> <mstyle displaystyle="false" scriptlevel="0"> b </mstyle> ] x_2 = \begin{bmatrix} \lambda_2-c \\ b \end{bmatrix} x2=[λ2cb]

x 1 T x 2 = b ( λ 2 c ) + b ( λ 1 a ) = b ( λ 1 + λ 2 a c ) = 0 x_1^Tx_2=b(\lambda_2-c)+b(\lambda_1-a)=b(\lambda_1+\lambda_2-a-c)=0 x1Tx2=b(λ2c)+b(λ1a)=b(λ1+λ2ac)=0

两个特征值的和为矩阵的迹,即对角线元素的和。

我们再来看 2 × 2 2×2 2×2 矩阵分解后的结果

A = Q Λ Q T = [ <mstyle displaystyle="false" scriptlevel="0"> </mstyle> <mstyle displaystyle="false" scriptlevel="0"> x 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> x 2 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> <mtext>   </mtext> </mstyle> ] [ <mstyle displaystyle="false" scriptlevel="0"> λ 1 </mstyle> <mstyle displaystyle="false" scriptlevel="0"> <mtext>   </mtext> </mstyle> <mstyle displaystyle="false" scriptlevel="0"> λ 2 </mstyle> ] [ <mstyle displaystyle="false" scriptlevel="0"> x 1 T </mstyle> <mstyle displaystyle="false" scriptlevel="0"> x 2 </mstyle> ] A=Q\Lambda Q^T = \begin{bmatrix} \\x_1&amp; x_2 \\ \space \end{bmatrix}\begin{bmatrix} \lambda_1\\ \space &amp; \lambda_2 \end{bmatrix}\begin{bmatrix} \quad x_1^T\quad\\ \quad x_2 \quad \end{bmatrix} A=QΛQT=x1 x2[λ1 λ2][x1Tx2]

A = λ 1 x 1 x 1 T + λ 2 x 2 x 2 T A=\lambda_1 x_1x_1^T+\lambda_2 x_2x_2^T A=λ1x1x1T+λ2x2x2T

扩展到 n n n 维的情况, A = i n λ i x i x i T A=\sum_i^n\lambda_i x_ix_i^T A=inλixixiT,其中每一个 x i x i T x_ix_i^T xixiT 都是投影矩阵, P = x x T x T x P=\frac{xx^T}{x^Tx} P=xTxxxT,特征向量的长度为 1,所以分母略去了。也就是说,对称矩阵是其特征向量投影矩阵的线性组合

2. 实矩阵的复特征向量

A x = λ x <mover accent="true"> A ˉ </mover> <mover accent="true"> x ˉ </mover> = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> A <mover accent="true"> x ˉ </mover> = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> Ax=\lambda x \to \bar A\bar x=\bar \lambda\bar x \to A\bar x=\bar \lambda\bar x Ax=λxAˉxˉ=λˉxˉAxˉ=λˉxˉ

针对对称矩阵,其特征值和特征向量都是实的。但是,非对称矩阵非常容易得到虚的特征值和特征向量。在这种情况下, A x = λ x Ax=\lambda x Ax=λx A <mover accent="true"> x ˉ </mover> = <mover accent="true"> λ ˉ </mover> <mover accent="true"> x ˉ </mover> A\bar x=\bar \lambda\bar x Axˉ=λˉxˉ 是不同的,我们得到了一个新的特征值 <mover accent="true"> λ ˉ </mover> \bar \lambda λˉ 和新的特征向量 <mover accent="true"> x ˉ </mover> \bar x xˉ

针对实矩阵,复数的特征值和特征向量总是一对共轭对。

3. 特征值和主元

矩阵的主元和特征值是非常不同的,主元是通过消元得到的,而特征值是通过求解 d e t ( A λ I ) = 0 det(A-\lambda I)=0 det(AλI)=0 得到的。到目前为止,它们唯一的联系就是:所有主元的乘积等于所有特征值的乘积,都等于矩阵的行列式值

针对对称矩阵,还有一个隐藏的关系:主元的符号和特征值的符号一致,也就是正的主元个数等于正的特征值的个数

证明

对称矩阵可以被分解为 A = L D L T A=LDL^T A=LDLT 的形式。

L L L 变成 I I I 的时候, L D L T LDL^T LDLT 就变成了 I D I T IDI^T IDIT,也就是由 A A A 变成了 D D D A A A 的特征值为 4 和 -2, D D D 的特征值为 1 和 -8。当 L L L 中左下角的元素从 3 变到 0 的时候, L L L 就变成了 I I I。在这个过程中,如果特征值符号发生改变的话,那肯定会有一个中间时刻,这时候特征值为 0,也就意味着矩阵是奇异的。但是最后的矩阵 D D D 一直有两个主元,始终是可逆的,从来不可能是奇异的,因此特征值的符号不会发生改变。

特别地,所有的特征值都大于零,也就是所有的主元都大于零,这种情况下,矩阵就称之为是正定的

4. 重复的特征值

当没有重复特征值的时候,特征向量一定是线性不相关的,这时候矩阵一定可以被对角化。但是一个重复的特征值可能会导致特征向量的缺乏,这有些时候会发生在非对称矩阵上,但是对称矩阵一定会有足够的特征向量来进行对角化

证明

获取更多精彩,请关注「seniusen」!