降维(DR)方法是分析高维数据时不可或缺的帮手。
作为简化数据去噪的一种方法,它在处理大多数现代生物数据方面非常有用。在这些数据集中,通常会出现单个样本同时收集数百甚至数百万个测量值的情况。
由于存在“维数灾难”,许多统计方法难以应用于高维数据。尽管收集了许多数据点,但它们分散在一个几乎不可能彻底探索的大型高维空间中。
通过减少数据的维度,您可以轻松地解决这个复杂而棘手的问题。去除噪声但保留感兴趣信息的低维数据对于理解底层结构和模式很有用。原始的高维数据通常包含许多不相关或冗余变量的观察结果。降维可以被视为提取潜在特征的一种方式。它还经常用于数据压缩,数据探索和数据可视化。
尽管在标准数据分析过程中已经开发并实现了许多降维方法,但它们很容易被滥用,并且它们的结果在实践中经常被误解。
本文为从业者提供了一套有用的指南,帮助他们正确缩小规模,解释输出结果并传达结果。
提示1:选择合适的方法
当您想要选择现有的降维方法之一进行分析时,可用的降维方法的数量似乎令人生畏。事实上,你不必被一种方法困住;但是,您应该了解哪种方法适合您当前的工作。
降维方法的选择取决于输入数据的性质。例如,对于连续数据,分类数据,计数数据和距离数据,它们将需要不同的降维方法。您还应该使用您的直觉和相关领域知识来考虑收集的数据。通常,观测可以充分捕捉相邻(或类似)数据点之间的小规模关系,但不能捕捉远程观测之间的长期相互作用。考虑数据的性质和分辨率很重要,因为降维方法可以恢复数据的整体或局部结构。通常,还使用诸如主成分分析(PCA),对应分析(CA),多对应分析(MCA)和经典多维缩放(cMDS)的线性方法。主坐标分析(PCoA)等方法通常用于保存数据的整体结构;非线性方法,如核主成分分析(Kernel PCA)和非度量多维尺度分析(Nonmetric Multidimensional Scaling,NMDS),Isomap,Diffusion Maps,以及一些相邻的嵌入技术,包括t-Distributed随机邻域嵌入(t-SNE),更适合表达本地数据的交互。
NE技术不保留数据点之间的长期交互,可视化报告中非相邻观察组的排列没有参考价值。因此,NE的图表不应用于推测大规模数据结构。线性和非线性降维方法的综述可以在以下两篇文章中找到。相关链接:
如果您的观察结果具有类别标签,并且您的目标是将观察结果分类为与其最匹配的已知类别,请考虑使用有监督的降维技术。监督降维技术包括偏最小二乘法(PLS),线性判别分析(LDA),邻域分量分析和瓶颈神经网络分类器。与前面提到的无监督降维方法不同,无监督方法不知道观测所属的类别,监督维数降低方法可以直接使用类别信息将同一标签的数据点汇集在一起。
对于基因表达,蛋白质组学和甲基化数据等多域数据的收集,您可能需要分别对每个数据表应用降维技术,然后使用Procrustes转换(Procrustes转换,相关链接:https://onlinelibrary .wiley.com/doi/abs/10.1002/bs.3830070216)或其他可以集成多个数据集的方法,例如多个表的联合分析方法(称为STATIS);多距离矩阵的联合分析(称为DisTATIS,相关链接:)(详见技巧9)。表1给出了降维技术的基本属性的分类和总结。为了帮助从业者,我们还将本文讨论的降维技术的实施总结为表2。
降维方法
表1.降维方法
降维方法
表2.案例实施
技巧2:预处理连续和计数输入数据
在应用降维技术之前,通常需要对数据进行适当的预处理。例如,数据居中,变量的观察减去该变量的观察的平均值,是主成分分析处理连续数据的必要步骤,并且在大多数标准实现中默认应用。另一种常见的数据转换方法是缩放,将变量的每个测量值乘以缩放因子,使得缩放变量的方差为1。缩放过程确保每个变量产生等效贡献,这对于包含高度可变范围或不同单位异质性的数据集尤其重要,例如患者临床数据,环境因素数据等。
当所有变量的单位相同时,如在高通量测量中,不推荐方差归一化,因为这会导致强信号特征的收缩和无信号特征的扩展。根据应用,输入数据的类型和使用的降维方法,可能需要其他数据转换方法。例如,如果数据的变化是乘法的,例如,如果变量测量百分比的增加或减少,那么在使用主成分分析之前应考虑对数变换。在处理基因组测序数据时,需要解决两个问题才能进行数据缩减。第一个问题:每个序列样本都有一个不同大小的文库(也称为测序深度),这是一个区分观察结果的人为模糊参数。为了使观察结果具有可比性,需要一种特定的方法(如DESeq2,edgeR)来估算样本量的因子,然后通过从相应的样本中去除每个因子来对样本进行归一化。两个问题:分析数据倾向于显示均值方差的正相关趋势,即高均值意味着高方差。在这种情况下,需要方差稳定变换来调整这种效果,以避免趋向于更多的特征。对于负二项分布的计数数据,如序列计数,建议使用反双曲函数正弦变换或类似方法[28-30]。对于高通量数据,样本标准化和方差稳定的组合是高通量数据的有效预处理步骤。技巧3:使用分类变量正确处理输入数据
在许多情况下,可用的测量值不是数字,而是定性或分类。相应的数据变量表示类别,而不是数字量,例如表型,队列成员,样本测序运行,调查响应评级等。当关注于两个分类变量(不同值)的水平之间的关系时,使用对应分析(CA)来分析列联表中的类别的共现频率。如果存在两个以上的分类变量,则可以使用多重对应分析(MCA)来分析观察点与变量类别之间的关系。多对应分析是相应分析的概括。其实质是将相应的分析应用于单调编码分类变量的指标矩阵。当输入数据包括数字和分类变量时,可以使用两种策略。如果只有少数分类变量,则可以对数值变量执行主成分分析,并且可以将分类变量的每个级别的平均值作为补充点(未加权)进行投影。另一方面,如果该混合数据集包含大量分类变量,则可以使用多因素分析(MFA)。该方法使用主成分分析数值变量,分类变量的多因素分析,然后加权和组合变量组的结果。
处理数据排序或混合的另一种方法是使用“最佳量化”的思想来使用PCA转换变量(即主成分分析,直接使用下面的PCA)。由于目标是最大化方差,传统的PCA只能对数值变量进行降维,不能对分类变量起作用。为了实现类(无序)或有序(有序)分类变量的PCA降维,一种方法是用基于每个类的频率计算的卡方距离替换方差(如在相应的分析中)。或者,您可以在执行PCA之前执行适当的变量转换。这里提供了两种转换变量的方法:一种是将分类变量虚拟化为两类特征;另一种是使用最佳比例分类主成分分析(CATPCA)。最优缩放方法的原理是对原始分类变量进行分类,以最大化新变量的方差。通过最优缩放,可以将分类主成分分析转换为优化问题。通过分量分数,分量加载和分量量化的迭代变换,通过连续迭代使量化数据和主分量之间的平方差最小化。
最佳缩放的一个优点是它不预先假定变量之间存在线性关系。实际上,即使输入数据是数值类型,分类主成分分析处理变量之间的非线性关系的能力也很重要。因此,当变量之间存在非线性关系时,最佳缩放方法提供了可能的补救措施,而标准PCA只能解释方差的低比例。技巧4:使用嵌入式方法减少输入数据的相关性和不相似性
当既没有定量特征也没有定性特征时,可以通过低维嵌入来减少通过相异性(或相关性)测量的数据点之间的关系。即使可以进行可变测量,计算相异性和使用基于距离的方法也是一种有效的方法。但是,您希望确保选择最能总结数据特征的其他指标。例如,如果源数据是二进制,则不能使用欧几里德距离,最好选择曼哈顿距离。但是,如果特征稀疏,则应优先使用Jaccard距离。
经典多尺度分析(cMDS),主坐标分析(PCoA)和非度量多尺度分析(NMDS)利用配对数据之间的差异来寻找欧几里德空间中的嵌入来实现所提供的距离的最佳近似。虽然经典多尺度分析(cMDS)是一种类似于主成分分析(PCA)的矩阵分解方法,但非度量多尺度分析(NMDS)是一种努力仅保留相异性排序的优化技术。当输入距离值的置信度较低时,后一种方法更适用。当相异性数据是非标准的时,定性数据,可以使用更专业的序数嵌入方法,详见Kleindessner和von Luxburg的讨论。当使用基于优化的多维缩放(MDS)时,您可以选择将最小化问题限制为仅通过本地交互从数据点到其邻居(例如,k-最近邻居)的距离。此方法称为“本地”MDS。
不相似性也可以用作t分布随机嵌入(t-SNE)的输入。与局部MDS类似,t分布随机嵌入(t-SNE)专门用于表示短程交互。然而,该方法通过使用小尾高斯核函数将提供的距离转换为相邻度量以不同方式实现局部性。目前,已经开发了基于神经网络的词向量(word2vec)方法,其使用相似性数据(共现数据)来生成连续欧几里德空间中的对象的向量嵌入。事实证明,这种技术在从文本语料库中派生的数据生成单词嵌入方面非常有效。然而,这些先进的计算方法的稳健性尚未在许多生物数据集上进行广泛测试。
提示5:故意决定保留哪个维度
在确定数据大小时,关键问题是选择适当的新维度的数量。该步骤确定是否可以在尺寸减小的数据中捕获感兴趣的信号。在统计分析或机器学习任务(例如聚类之前的数据预处理步骤)中选择维数减少中的维数特别重要。即使您的主要目标是可视化数据,由于您一次只能显示两个或三个轴以进行可视化,因此您仍需在减小尺寸后选择适当数量的新尺寸。例如,如果对前两个或三个主要组件的解释不充分,则应保留更多组件。此时,需要可视化多个组件组合(例如,组件1和组件2,组件)。 2和组件4,组件3和组件5之间的比较等)。在某些情况下,最强信息是一个复杂因素,有用信息由更高阶的组件捕获。在这种情况下,您必须使用高阶组件来显示其模式。要保留的最佳维数取决于数据本身。在了解数据之前,无法确定正确的输出尺寸数。请记住,最大维数是数据集中的最小记录数(行数)和变量数(列数)。例如,如果您的数据集包含10,000个基因表达式但只包含10个样本,则不能减少超过10行(如果输入数据已经居中,则为9)。对于基于谱减少的降维方法,例如主成分分析(PCA)或主坐标分析(PCoA),您可以根据特征值的分布选择维度。在实践中,人们经常依赖砾石图“碎石图”(见图1)和肘部规则(也称为拐点规则)。砾石图直观地显示输出中每个要素的值,或等效地,每个要素作为组件方差的比例。通过观察图形,您可以找到一个拐点,其中特征的值明显低于其前一个位置的值。或者,您可以查看特征值的直方图,并从所有特征中找出“开箱即用”值较大的特征。 Marchenko-Pastur分布近似模拟了大量随机矩阵的奇异值的分布。因此,对于具有大量记录和大量特征的数据集,您使用的规则是仅保留拟合的Marchenko-Paste分布支持之外的特征值;但请记住,这仅在数据集中。仅在您拥有至少数千个样本和数千个功能时才可用
上海IT外包服务网 链接:http://www.linemore.com