MDS talk
在实际中我们会经常遇到这些的问题,给你一组城市,你总能从地图上测出任何一对城市之间的距离。但若给你若干城市的距离,你能否确定这些城市之间的相对位置呢?假定你知道只是哪两个城市最近,哪两个城市次近等等,你是否还能确定它们之间的相对位置呢?假定通过调查了解了10种饮料产品在消费者心中的相似程度,你能否确定这些产品在消费者心理空间中的相对位置呢?在实际中我们常常会遇到类似这样的问题。
- 多维标度法(Multidimensional Scaling)就是解决这类问题的一种方法,它是一种在低维空间展示“距离”数据结构的多元数据分析技术,简称MDS。
- 多维标度法起源于心理测度学,用于理解人们判断的相似性。Torgerson拓展了Richardson及Klingberg等人在三、四十年代的研究,具有突破性地提出了多维标度法,后经Shepard和Kruskal等人进一步加以发展完善。多维标度法现在已经成为一种广泛用于心理学、市场调查、社会学、物理学、政治科学及生物学等领域的数据分析方法。
多维标度法解决的问题
是:当n个对象(object)中各对对象之间的相似性(或距离)给定时,确定这些对象在低维空间中的表示(感知图Perceptual Mapping),并使其尽可能与原先的相似性(或距离)“大体匹配”,使得由降维所引起的任何变形达到最小。多维空间中排列的每一个点代表一个对象,因此点间的距离与对象间的相似性高度相关。也就是说,两个相似的对象由多维空间中两个距离相近的点表示,而两个不相似的对象则由多维空间两个距离较远的点表示。多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏三维以上空间。
多维标度法分类
- 按相似性(距离)数据测量尺度的不同MDS可分为:
度量MDS:当利用原始相似性(距离)的实际数值为间隔尺度和比率尺度时称为度量MDS(metric MDS)
非度量MDS:当利用原始相似性(距离)的等级顺序(即有序尺度)而非实际数值时称为非度量MDS(nonmetric MDS) - 按相似性(距离)矩阵的个数和MDS模型的性质MDS可分为:
古典多维标度CMDS(一个矩阵,无权重模型)
重复多维标度Replicated MDS(几个矩阵,无权重模型)
权重多维标度WMDS(几个矩阵,权重模型)
相似与距离的概念
- 相似数据与不相似数据
- 相似数据:如果用较大的数据表示非常相似,用较小的数据表示非常不相似,则数据为相似数据。如用10表示两种饮料非常相似,用1表示两种饮料非常不相似。
- 不相似数据:如果用较大的数值表示非常不相似,较小的数值表示非常相似,则数据为不相似数据,也称距离数据。如用10表示两种饮料非常不相似,用1表示两种饮料非常相似。
2.距离阵
定义10.1 一个n x n阶的矩阵D=(dij ) n x n ,如果满足条件:
- 在进行多维标度分析时,如果数据是多个分析变量的原始数据,则要根据聚类分析中介绍的方法,计算分析对象间的相似测度;如果数据不是广义距离阵,要通过一定的方法将其转换成广义距离阵才能进行多维标度分析。
古典多维尺度分析的思想和方法
- 这里需要特别注意,并非所有的距离阵都存在一个r维的欧氏空间和n个点,使得n个点之间的距离等于D。因而,并不是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。
- 当距离阵为欧氏时,可求得一个D的构图X,当距离阵不是欧氏时,只能求得D的拟合构图。在实际应用中,即使D为欧氏,一般也只求r =2或3的低维拟合构图。
- 值得注意的是,由于多维标度法求解的n个点仅仅要求它们的相对欧氏距离与D相近,也就是说,只与相对位置相近而与绝对位置无关,根据欧氏距离在正交变换和平移变换下的不变性,显然所求得解并不唯一。
度量MDS的古典解
(4)根据(10.7)式计算 ,得到r维拟合构图(简称古典解)。 这里需要注意,如果λi中有负值,表明D是非欧氏型的
已知距离矩阵的CMDS计算
资料来源
https://www.slideserve.com/andrew-slater/6749120
可阅读资料
https://blog.csdn.net/yangsong95/article/details/83959618
https://www.cnblogs.com/gczr/p/9426711.html
https://zhuanlan.zhihu.com/p/50715681
English:https://jonlefcheck.net/2012/10/24/nmds-tutorial-in-r/