马氏距离和欧式距离详解

一般在机器学习模型中会涉及到衡量两个样本间的距离，如聚类、KNN，K-means等，使用的距离为欧式距离。其实，除了欧氏距离之外，还有很多的距离计算标准，本文主要介绍欧氏距离和马氏距离。

欧氏距离

最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 $x = (x_{1}, \dots, x_{n})$ 和 $y = (y_{1}, \dots, y_{n})$ 之间的距离为：
$d (x, y) = \sqrt{(x_{1} - y_{1})^{2} + (x_{2} - y_{2})^{2} + . . . + (x_{n} - y_{n})^{2}} = \sqrt{<munderover> \sum i = 1 n </munderover> (x_{i} - y_{i})^{2}}$

二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：
$d_{12} = \sqrt{(x_{1} - x_{2})^{2} + (y_{1} - y_{2})^{2}}$
两个n维向量 $a (x_{11}, x_{12}, \dots, x_{1 n})$ 与 $b (x_{21}, x_{22}, \dots, x_{2 n})$ 间的欧氏距离：
$d_{12} = \sqrt{<munderover> \sum k = 1 n </munderover> (x_{1 k} - x_{2 k})^{2}}$

马氏距离

在介绍马氏距离之前，我们先来看如下几个概念：

方差：方差是标准差的平方，而标准差的意义是数据集中各个点到均值点距离的平均值。反应的是数据的离散程度。
**协方差：**标准差与方差是描述一维数据的，当存在***数据时，我们通常需要知道每个维数的变量中间是否存在关联。协方差就是衡量***数据集中，变量之间相关性的统计量。比如说，一个人的身高与他的体重的关系，这就需要用协方差来衡量。如果两个变量之间的协方差为正值，则这两个变量之间存在正相关，若为负值，则为负相关。
**协方差矩阵：**当变量多了，超过两个变量了。那么，就用协方差矩阵来衡量这么多变量之间的相关性。假设 $X$ 是以 $n$ 个随机变数（其中的每个随机变数是也是一个向量，当然是一个行向量）组成的列向量：
$X = [\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> X_{1} </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> X_{2} </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> ⋮ <mpadded height="+0em" voffset="0em"> </mpadded> </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> X_{n} </mstyle> \end{matrix}]$
其中， $μ_{i}$ 是第i个元素的期望值，即 $μ_{i} = E (X_{i})$ 。协方差矩阵的第 $i, j$ 项（第 $i, j$ 项是一个协方差）被定义为如下形式：
$<munder> \sum i j </munder> = c o v (X_{i}, X_{j} = E [(X_{i} - μ_{i}) (X_{j} - μ_{j})])$
即：
$\sum = [\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> E [(X_{1} - μ_{1}) (X_{1} - μ_{1})]) </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> E [(X_{1} - μ_{1}) (X_{2} - μ_{2})]) </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> \dots </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> E [(X_{1} - μ_{1}) (X_{n} - μ_{n})]) </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> E [(X_{2} - μ_{2}) (X_{1} - μ_{1})]) </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> E [(X_{2} - μ_{2}) (X_{2} - μ_{2})]) </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> \dots </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> E [(X_{2} - μ_{2}) (X_{n} - μ_{n})]) </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> ⋮ <mpadded height="+0em" voffset="0em"> </mpadded> </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> ⋮ <mpadded height="+0em" voffset="0em"> </mpadded> </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> ⋱ </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> ⋮ <mpadded height="+0em" voffset="0em"> </mpadded> </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> E [(X_{n} - μ_{n}) (X_{1} - μ_{1})]) </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> E [(X_{n} - μ_{n}) (X_{2} - μ_{2})]) </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> \dots </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> E [(X_{n} - μ_{n}) (X_{n} - μ_{n})]) </mstyle> \end{matrix}]$
矩阵中的第 $(i, j)$ 个元素是 $X_{i}$ 与 $X_{j}$ 的协方差。

马氏距离的定义：
马氏距离（Mahalanobis Distance）是由马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。
对于一个均值为 $μ = (μ_{1}, μ_{2}, μ_{3}, . . ., μ_{p})^{T}$ ，协方差矩阵为 $S$ 的多变量 $x = (x_{1}, x_{2}, x_{3}, . . ., x_{p})^{T}$ ，其马氏距离为：
$D_{M} (x) = \sqrt{(x - μ)^{T} S^{- 1} (x - μ)}$
我们可以发现如果 $S^{- 1}$ 是单位阵的时候，马氏距离简化为欧氏距离。

那我们为什么要用马氏距离呢？
马氏距离有很多优点： 马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。

下面我们来看一个例子：
如果我们以厘米为单位来测量人的身高，以克（g）为单位测量人的体重。每个人被表示为一个两维向量，如一个人身高173cm，体重50000g，表示为（173,50000），根据身高体重的信息来判断体型的相似程度。

我们已知小明（160,60000）；小王（160,59000）；小李（170，60000）。根据常识可以知道小明和小王体型相似。但是如果根据欧几里得距离来判断，小明和小王的距离要远远大于小明和小李之间的距离，即小明和小李体型相似。这是因为不同特征的度量标准之间存在差异而导致判断出错。

以克（g）为单位测量人的体重，数据分布比较分散，即方差大，而以厘米为单位来测量人的身高，数据分布就相对集中，方差小。马氏距离的目的就是把方差归一化，使得特征之间的关系更加符合实际情况。

下图（a）展示了三个数据集的初始分布，看起来竖直方向上的那两个集合比较接近。在我们根据数据的协方差归一化空间之后，如图（b），实际上水平方向上的两个集合比较接近。

深入分析：
当求距离的时候，由于随机向量的每个分量之间量级不一样，比如说x1可能取值范围只有零点几，而x2有可能时而是2000，时而是3000，因此两个变量的离散度具有很大差异
马氏距离除以了一个方差矩阵，这就把各个分量之间的方差都除掉了，消除了量纲性，更加科学合理。

如上图，看左下方的图，比较中间那个绿色的和另外一个绿色的距离，以及中间绿色到蓝色的距离

如果不考虑数据的分布，就是直接计算欧式距离，那就是蓝色距离更近

但实际上需要考虑各分量的分布的，呈椭圆形分布

蓝色的在椭圆外，绿色的在椭圆内，因此绿色的实际上更近

马氏距离除以了协方差矩阵，实际上就是把右上角的图变成了右下角

参考资料：
马氏距离通俗理解