我们时不时会在现代商业社会里看到降维打击这个词。而它则是真实存在于机器学习等学科中的。所以降维(数据降维)不局限于机器学习,在其他领域也有。毕竟越底层的知识越通用,就跟计算机技术类似。数学,是横跨所有理工科,是各个领域知识的基础。
因此降维我等大众凡人常从科幻小说电影或现代商业社会中听到的概念,的确是数学等学科上或者机器学习里的一个很重要的知识点。因为它,用来对数据压缩和提取,以便利于我们计算和观摩,这个过程,真的有点类似科幻影视作品里的三维等多维空间折叠。瞧,原本是学科技术方面的词,被科幻和商业社会借了兜售给我们,然后我们学习时溯源又看到这些概念,可谓人生就是一个圈,兜兜转转又返还。
就不说商业概念或科幻小说洗脑了,即便单纯从名字看,我们也能明白降维的字面意义:降低维度。影视作品里,常常是从高纬度向低纬度的投影折叠,从而碾压低纬度。其实在学科概念里,它的深层次意义是降低随机变量的个数,有效信息的提取综合及无用信息的摈弃。
毕竟对于我们生活在三维空间(你带上时间说四维也可以)里的普通凡夫俗子而言,想象比我们更高的维度空间,的确有困难。想象都有困难,更别提再模拟或计算了。所以对于高维数据,成千上万的维造成的维度灾难,我们的幼小的人类智商撞见了不吓死也得残疾。
因此需要降维,一方面方便于我们人类大脑来理解和分析,另一方面,也方便于电脑来计算和分析。没错,电脑再比人脑快,依然难以面对大规模的高维数据。将数据降维到我们能理解和计算的程度,有效提取了有用信息,同时还排除了很多噪声无用数据,可谓一举多得,这样才利于我们可视化分析了。
其实呢,降维就是从高维数据到低维数据的映射,就是一个函数映射。而这个映射函数具体一点,在机器学习中也分好多种,比如按使用样本的标签值分类成有监督降维和无监督降维,比如线性降维和非线性降维。这里不细说了。机智客觉得对于我们而言,容易直观接受的就是常见的数据降维方法是从高维空间投影到低纬子空间,也就是投影方法(另外还有一个流形学习)。而我们在学习数学或者看技术教科书的时候,就会经常看到类似某某是某某在某个维度上的投影。和这个差不多,虽然刚开始学时,乍一听觉得云里雾里的,学多了就懂了。