首页>>互联网>>物联网->物联网怎么降维?

物联网怎么降维?

时间:2023-12-15 本站 点击:0

导读:很多朋友问到关于物联网怎么降维的相关问题,本文首席CTO笔记就来为大家做个详细解答,供大家参考,希望对大家有所帮助!一起来看看吧!

利用 PCA 来对数据降维

降维往往作为预处理步骤,其中独立成分分析、因子分析和主成分分析比较流行,主成分分析(PCA)最为广泛。

主成分分析会通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合。这种转变的目的,一方面是可以大幅降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系。

主成分分析的主要步骤如下:

1)通常要先进行各变量的标准化工作,标准化的目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。

2)选择协方差阵或者相关阵计算特征根及对应的特征向量。

3)计算方差贡献率,并根据方差贡献率的阀值选取合适的主成分个数。

4)根据主成分载荷的大小对选择的主成分进行命名。

5)根据主成分载荷计算各个主成分的得分。

将主成分进行推广和延伸即成为因子分析(Factor Analysis),因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是说,采用少数几个因子描述多个指标之间的联系,将比较密切的变量归为同一类中,每类变量即是一个因子。之所以称其为因子,是因为它们实际上是不可测量的,只能解释。

主成分分析是因子分析的一个特例,两者的区别和联系主要表现在以下方面:

❑ 主成分分析会把主成分表示成各个原始变量的线性组合,而因子分析则把原始变量表示成各个因子的线性组合。这个区别最直观也最容易记住。

❑ 主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差。

❑ 在主成分分析中,有几个原始变量就有几个主成分,而在因子分析中,因子个数可以根据业务场景的需要人为指定,并且指定的因子数量不同,则分析结果也会有差异。

❑ 在主成分分析中,给定的协方差矩阵或者相关矩阵的特征值是唯一时,主成分也是唯一的,但是在因子分析中,因子不是唯一的,并且通过旋转可以得到不同的因子。

主成分分析和因子分析在数据化运营实践中主要用于数据处理、降维、变量间关系的探索等方面,同时作为统计学里的基本而重要的分析工具和分析方法,它们在一些专题分析中也有着广泛的应用。

PCA借助于一个正交变换,将其分量相关的原随机变量转化成其分量不相关的新随机变量。主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。

PCA 可以从数据中识别其主要特征,它是通过沿着数据最大方差方向旋转坐标轴来实现的。选择方差最大的方向作为第一条坐标轴,后续坐标轴则与前面坐标轴正交。协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

优点: 降低数据的复杂性,识别最重要的多个特征。

缺点: 不一定需要,且可能损失有用信息。

PCA的主要算法如下:

组织数据形式,以便于模型使用;

计算样本每个特征的平均值;

每个样本数据减去该特征的平均值(归一化处理);

求协方差矩阵;

找到协方差矩阵的特征值和特征向量;

对特征值和特征向量重新排列(特征值从大到小排列);

对特征值求取累计贡献率;

对累计贡献率按照某个特定比例选取特征向量集的子集合;

对原始数据(第三步后)进行转换。

其中协方差矩阵的分解可以通过按对称矩阵的特征向量来,也可以通过分解矩阵的SVD来实现,而在Scikit-learn中,也是采用SVD来实现PCA算法的。这里给出带SVD的原始算法和Scikit-learn模块实现的PCA类。

scATAC分析神器ArchR初探-使用ArchR降维(4)

scATAC分析神器ArchR初探-简介(1)

scATAC分析神器ArchR初探-ArchR进行doublet处理(2)

scATAC分析神器ArchR初探-创建ArchRProject(3)

scATAC分析神器ArchR初探-使用ArchR降维(4)

scATAC分析神器ArchR初探--使用ArchR进行聚类(5)

scATAC分析神器ArchR初探-单细胞嵌入(6)

scATAC分析神器ArchR初探-使用ArchR计算基因活性值和标记基因(7)

scATAC分析神器ArchR初探-scRNA-seq确定细胞类型(8)

scATAC分析神器ArchR初探-ArchR中的伪批次重复处理(9)

scATAC分析神器ArchR初探-使用ArchR-peak-calling(10)

scATAC分析神器ArchR初探-使用ArchR识别标记峰(11)

scATAC分析神器ArchR初探-使用ArchR进行主题和功能丰富(12)

scATAC分析神器ArchR初探-利用ArchR丰富ChromVAR偏差(13)

scATAC分析神器ArchR初探-使用ArchR进行足迹(14)

scATAC分析神器ArchR初探-使用ArchR进行整合分析(15)

scATAC分析神器ArchR初探-使用ArchR进行轨迹分析(16)

由于 稀疏性, 使用scATAC-seq降低尺寸具有挑战性的数据。在scATAC-seq中,可以在一个等位基因(两个等位基因或一个等位基因)上访问特定位点。即使在高质量的scATAC-seq数据中,大多数可访问区域也不会转座,这导致许多具有0个可访问等位基因的基因座。此外,当我们在单个单元格的单个峰区域内看到(例如)三个Tn5插入片段时,数据的稀疏性使我们无法自信地确定该单元格中的该位点实际上比只有一个单元格的另一个单元格高出三倍在同一站点插入一个。因此,许多分析策略都对二进制化的scATAC-seq数据矩阵起作用。由于转置很少,因此该二值化矩阵最终仍大部分为0。然而,重要的是要注意,scATAC-seq中的0可能表示“不可访问”或“未采样”,并且从生物学的角度来看,这两个推论有很大不同。因此,1具有信息,而0没有。如此低的信息量是我们的scATAC-seq数据的来源 稀疏的 。

如果要在此稀疏插入计数矩阵上执行标准降维(例如主成分分析)并绘制前两个主成分,则将无法获得所需的结果,因为稀疏性导致所有0都具有较高的小区间相似度职位。为了解决这个问题,我们使用分层降维方法。首先,我们使用潜在语义索引(LSI),这是自然语言处理中的一种方法,最初旨在根据字数评估文档的相似性。该解决方案是为自然语言处理而创建的,因为数据稀疏且嘈杂(许多不同的单词和许多低频单词)。LSI由 Cusanovich等人 首次针对scATAC-seq引入 。(2015年科学) 。对于scATAC-seq,不同的样本是 文档 ,不同的区域/峰是 单词 。首先,我们通过每个单元的深度归一化来计算频率项。然后,通过反文档频率对这些值进行归一化,反文档频率通过对特征进行加权的频率来对特征进行加权,以识别更“特定”而不是通常可访问的特征。最终的词频-反文档频率(TF-IDF)矩阵反映了 单词 (即区域/峰值)对 文档 (即样本)的重要性。然后,通过一种叫做奇异值分解(SVD),最 有价值 跨样本的信息被识别并在较低维度的空间中表示。LSI使您可以将稀疏插入计数矩阵的维数从数千减少到数十或数百。然后,可以使用更常规的降维技术,例如均匀流形近似和投影(UMAP)或t分布随机邻居嵌入(t-SNE),将数据可视化。在ArchR中,这些可视化方法称为 嵌入 。

ArchR实现了几种不同的LSI实现,我们已经在多个不同的测试数据集中对许多方法进行了基准测试。ArchR的默认LSI实现与Timacy Stuart在 Signac中 引入的方法有关,该方法使用的术语频率已被深度归一化为常数(10,000),然后使用反文档频率进行归一化,然后对结果矩阵进行对数转换(aka log(TF-IDF) )。

降低LSI尺寸的关键输入之一是起始矩阵。到目前为止,scATAC-seq中的两个主要策略是(1)使用峰区域或(2)全基因组图块。但是,将峰区域用于LSI本身就具有挑战性,因为在降维之前我们没有簇或簇特定峰。此外,在聚类之前在聚集的细胞上调用峰会掩盖特定于细胞类型的峰。而且,将新样品添加到实验中时,任何联合峰集都会改变,从而使该策略的稳定性降低。第二种策略是使用全基因组切片,通过使用一致且无偏的特征集(全基因组切片)来缓解这些问题。但是,所有区域中所有细胞的全基因组图块矩阵可能会变得过大。为此原因,大多数实现都使用大于或等于5 KB的小块。因为大多数可访问区域只有几百个碱基对长,所以这大大降低了方法的分辨率。

由于Arrow文件的设计方式,ArchR能够使用全基因组范围的500 bp切片快速执行LSI。这解决了分辨率问题,并允许在调用峰之前识别簇。挑战在于,500 bp的条带生成约600万个特征,并按图块矩阵包含在单元中。虽然ArchR可以通过分块相关矩阵将大量数据读取到R中,但我们还实现了“估计LSI”方法,该方法对所有单元的子集执行初始降维。这种估计的LSI方法具有两个主要用途-(i)加快降维速度;(ii)减少初始降维时使用的单元数,这会降低数据的粒度。粒度的减少可用于您的优势,以减少数据中的批量影响。但是,它也可能掩盖真实的生物学信息,因此应在密切的人工监督下使用估计的LSI方法。

在scRNA-seq中,识别可变基因是计算降维的常用方法(例如PCA)。这样做是因为这些高度可变的基因在生物学上更可能具有重要意义,并且可以减少实验噪音。在scATAC-seq中,数据是二进制的,因此您无法识别可变峰以降低维数。我们没有确定最大的峰,而是尝试使用最易访问的功能作为LSI的输入。但是,运行多个样品时的结果显示出较高的噪声水平和低重现性。为了解决这个问题,我们引入了 `` 迭代LSI''方法( Satpathy *,Granja *等人,Nature Biotechnology 2019 和 Granja *,Klemm *和McGinnis *等人,Nature Biotechnology 2019 )。此方法在最易访问的图块上计算初始LSI转换,并标识没有批次混淆的较低分辨率的群集。例如,当对外周血单核细胞进行检测时,这将鉴定出与主要细胞类型(T细胞,B细胞和单核细胞)相对应的簇。然后,ArchR计算所有要素中所有这些集群的平均可访问性。然后,ArchR识别这些群集中变化最大的峰,并将这些功能再次用于LSI。在第二次迭代中,变化最大的峰与scRNA-seq LSI实现中使用的变化基因更加相似。用户可以设置应执行的LSI迭代次数。

在本教程中,我们将创建一个 reducedDims 名为“ IterativeLSI” 的对象。

如果您在下游看到具有细微的批处理效果,则另一个选择是添加更多的LSI迭代,并从较低的初始群集分辨率开始,如下所示。另外,可变特征的数量可以减少以增加对更多可变特征的关注。

reducedDims 为了说明的目的,我们将该对象命名为“ IterativeLSI2”,但我们不会在下游使用它。

对于非常大的scATAC-seq数据集,ArchR可以估计带有LSI投影的LSI维数减少。此过程与迭代LSI工作流程相似,但是LSI过程不同。首先,将随机选择的“地标”单元的子集用于LSI降维。其次,使用从界标单元确定的反文档频率对其余单元进行TF-IDF归一化。第三,将这些归一化的单元投影到由界标单元定义的SVD子空间中。这导致了基于一小部分单元的LSI转换,这些单元被用作剩余单元的投影的界标。这种估计的LSI程序对于ArchR是有效的,因为在将新单元投影到界标单元LSI中时 ArchR迭代地从每个样本读取单元,而LSI将其投影而不将其全部存储在内存中。这种优化导致最小的内存使用,并进一步提高了超大型数据集的可伸缩性。重要的是,所需的界标集大小取决于数据集中不同像元的比例。

addIterativeLSI()通过设置sampleCellsFinal和projectCellsPre参数,可以通过功能在ArchR中访问估计的LSI 。samplesCellsFinal指定界标单元格子集的大小,并projectCellsPre告诉ArchR使用此界标单元格子集进行其余单元格的投影。

有时,迭代LSI方法不足以解决强批处理差异。因此,ArchR实现了一种常用的批处理校正工具 Harmony ,该工具最初是为scRNA-seq设计的。我们提供了一个包装器,该包装器会将降维对象从ArchR直接传递给 HarmonyMatrix() 函数。附加参数可以 HarmonyMatrix() 通过附加参数( ... )直接传递到函数中。请参阅 ?addHarmony() 以获取更多详细信息。用户应了解针对其特定应用的批处理纠正的注意事项。

数据降维——PCA、SVD

数据降维的目的: 数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。

降维方法  __ 属性选择 :过滤法;包装法;嵌入法; 

| _ 映射方法  _ 线性映射方法:PCA、LDA、SVD分解等 

| _ 非线性映射方法: 

|__核方法:KPCA、KFDA等 

|__二维化: 

|__流形学习:ISOMap、LLE、LPP等。 

| __ 其他方法:神经网络和聚类

    PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法。它不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。

    PCA方法通过消除数据的相关性,找到一个空间,使得各个类别的数据在该空间上能够很好地分离。在图1中,有一些离散的二维分布点,其中五角星表示一类集合,小圆圈表示另一类集合,假设这两个类别可以用特征X和特征Y进行描述,由图可知,在X轴和Y轴上这两个类别的投影是重叠的,表明这些点的两个特征X和Y没有表现出突出的识别性。但是两个类的投影在Z轴上区分度较大,显示出很好的识别性。PCA就是这样的一个工具,它可以产生非常好的降维效果。

优点:1)最小误差。2)提取了主要信息 

缺点:1)计算协方差矩阵,计算量大

    即每一维的数据都减去该维的均值。这里的“维”指的就是一个特征(或属性),变换之后每一维的均值都变成了0。假设二维数据如图3所示,特征中心化的结果如图4所示。

    样本X和样本Y的协方差(Covariance):

    协方差为正时说明X和Y是正相关关系,协方差为负时X和Y是负相关关系,协方差为0时X和Y相互独立。Cov(X,X)就是X的方差(Variance)。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵),方阵的边长是n(n-1)/2。比如对于3维数据(x,y,z),计算它的协方差就是:

    若AX=λX,则称λ是A的特征值,X是对应的特征向量。实际上可以这样理解:矩阵A作用在它的特征向量X上,仅仅使得X的长度发生了变化,缩放比例就是相应的特征值λ。当A是n阶可逆矩阵时,A与P^(-1)Ap相似,相似矩阵具有相同的特征值。特别地,当A是对称矩阵时,A的奇异值等于A的特征值,存在正交矩阵Q(Q^(-1)=Q^(T)),使得:

    对A进行 奇异值分解 就能求出所有特征值和Q矩阵。A∗Q=Q∗D,D是由特征值组成的对角矩阵由特征值和特征向量的定义知,Q的列向量就是A的特征向量。

    将特征值按照从大到小的顺序排序,选择其中最大的 k 个,然后将其对应的 k 个特征向量分别作为列向量组成特征向量矩阵。这里特征值只有两个,我们选择其中最大的那个,这里是1.284,对应的特征向量是(--0.677,0.735) T 。

    假设样例数为 m ,特征数为 n ,减去均值后的样本矩阵为 DataAdjust ( m * n ),协方差矩阵是 n * n ,选取的 k 个特征向量组成的矩阵为 EigenVectors ( n * k )。那么投影后的数据 FinalData 为

    这里是 FinalData (10*1)=  DataAdjust (10*2矩阵)×特征向量(--0.677,0.735) T, 得到结果是将原始样例的 n 维特征变成了 k 维,这 k 维就是原始特征在 k 维上的投影。

链接:

PCA理解第一层境界:最大方差投影

正如PCA的名字一样, 你要找到主成分所在方向, 那么这个主成分所在方向是如何来的呢?

其实是希望你找到一个垂直的新的坐标系, 然后投影过去, 这里有两个问题。 第一问题 : 找这个坐标系的标准或者目标是什么? 第二个问题 , 为什么要垂直的, 如果不是垂直的呢?

如果你能理解第一个问题, 那么你就知道为什么PCA主成分是特征值和特征向量了。  如果你能理解第二个问题, 那么你就知道PCA和ICA到底有什么区别了。

对于第一个问题: 其实是要 求解方差最小或者最大 。 按照这个目标, 你代入拉格朗日求最值, 你可以解出来, 主成分方向,刚好是S的特征向量和特征值! 是不是很神奇? 伟大的拉格朗日 (参考 " 一步一步走向锥规划 - QP " " 一挑三 FJ vs KKT ")

现在回答了,希望你理解了, PCA是对什么东西求解特征值和特征向量。 也理解为什么是求解的结果就是特征值和特征向量吧!

这仅仅是PCA的本意! 我们也经常看到PCA用在图像处理里面, 希望用最早的主成分重建图像:

这是怎么做到的呢?

PCA理解第二层境界:最小重建误差

什么是重建, 那么就是找个新的基坐标, 然后减少一维或者多维自由度。  然后重建整个数据。 好比你找到一个新的视角去看这个问题, 但是希望自由度小一维或者几维。

那么目标就是要最小重建误差,同样我们可以根据最小重建误差推导出类似的目标形式。

虽然在第二层境界里面, 也可以直观的看成忽略了最小特征值对应的特征向量所在的维度。  但是你能体会到和第一层境界的差别么? 一个是找主成分, 一个是维度缩减。  所以在这个层次上,才是把PCA看成降维工具的最佳视角。

PCA理解第三层境界:高斯先验误差

在第二层的基础上, 如果 引入最小二乘法和带高斯先验的最大似然估计的等价性 。(参考" 一步一步走向锥规划 - LS " “ 最小二乘法的4种求解 ” ) 那么就到了理解的第三层境界了。

所以, 重最小重建误差, 我们知道求解最小二乘法, 从最小二乘法, 我们可以得到高斯先验误差。 

有了高斯先验误差的认识,我们对PCA的理解, 进入了概率分布的层次了。 而正是基于这个概率分布层次的理解, 才能走到Hinton的理解境界。

PCA理解第四层境界(Hinton境界):线性流形对齐

如果我们把高斯先验的认识, 到到数据联合分布, 但是如果把数据概率值看成是空间。  那么我们可以直接到达一个新的空间认知。

这就是“Deep Learning”书里面写的, 烙饼空间(Pancake), 而在烙饼空间里面找一个线性流行,就是PCA要干的事情。 我们看到目标函数形式和最小重建误差完全一致。  但是认知完全不在一个层次了。

    奇异值分解(Singular Value Decomposition,SVD),是一种提取信息的方法。比如有一份记录用户关于餐馆观点的数据,要对其进行处理分析,提取背后的因素,这个因素可能是餐馆的类别,烹饪配料等,然后利用这些因素估计人们对没有去过的餐馆的看法,从而进行推荐,提取这些信息的方法就叫奇异值分解法。

    奇异值分解能够简约数据,去除噪声和冗余数据。其实它说白了也是一种降维方法,将数据映射到低维空间。从数学的角度讲,它就是一种矩阵分解法,就是把一个大矩阵分解成易于处理的形式,这种形式可能是两个或多个矩阵的乘积,就如同我们在代数中的因子分解,这种因子分解在数学里便于我们计算。

    假设我们的矩阵A是一个m×n的矩阵,那么我们定义矩阵A的SVD为

    假设A是一个N * M的矩阵,那么得到的U是一个N * N的方阵(里面的向量是正交的,U里面的向量称为左奇异向量),Σ是一个N * M的矩阵(除了对角线的元素都是0,对角线上的元素称为奇异值),V’(V的转置)是一个N * N的矩阵,里面的向量也是正交的,V里面的向量称为右奇异向量),从图片来反映几个相乘的矩阵的大小可得下面的图片

    那么奇异值和特征值是怎么对应起来的呢?首先,我们将一个矩阵A的转置 * A,将会得到一个方阵,我们用这个方阵求特征值可以得到:

    这里得到的v,就是我们上面的右奇异向量。此外我们还可以得到

    这里的σ就是上面说的奇异值,u就是上面说的左奇异向量。奇异值σ跟特征值类似,在矩阵Σ中也是从大到小排列,而且σ的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前r大的奇异值来近似描述矩阵,这里定义一下部分奇异值分解:

    r是一个远小于m、n的数,这样矩阵的乘法看起来像是下面的样子:

    右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,在这儿,r越接近于n,则相乘的结果越接近于A。而这三个矩阵的面积之和(在存储观点来说,矩阵面积越小,存储量就越小)要远远小于原始的矩阵A,我们如果想要压缩空间来表示原矩阵A,我们存下这里的三个矩阵:U、Σ、V就好了。这里我们用一个简单的例子来说明矩阵是如何进行奇异值分解的。我们的矩阵A定义为:

链接:

数据可视化——四种非线性降维方式

非线性降维,计算数据集中每行与其他行的距离(默认为欧氏距离)转换为概率。

PCA属于线性降维,不能解释复杂多项式之间的关系,t-SNE是根据t分布随机领域的嵌入找到数据之间的结构特点。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。

加载所需包

第一步:计算数据集中每行与其他行的距离(默认为欧式距离),转换为概率向量;

第二步:对每一行重复操作,得到概率矩阵;

第三步:沿两条新轴用学生t分布对数据随机化;

第四步:逐渐迭代,通过最小化KL散度,使得二维空间的新概率矩阵尽可能接近原高维空间。

较于正态分布,使用t分布能更好地分散可能的数据簇,更易识别;基于所实现的精度,将t-SNE与PCA和其他线性降维模型相比,结果表明t-SNE能够提供更好的结果,这是因为算法定义了数据的局部和全局结构之间的软边界。

缺点:不能保留全局结构、.计算量较大、不可预测新数据、无法像PCA一样投影新数据、簇间距离意义不大。

dims :参数设置降维之后的维度,默认值为2

perplexity:控制距离转化为概率的分布:局部结构 5-30-50 全局结构,取值小于 (nrow(data) - 1)/ 3,数据集越大,需要参数值越大;

theta:权衡速度与精度,取值越大,精度越低。精确 0-0.5-1 最快,默认值0.5;

eta:学习率,越少越精确,越多迭代次数越少,默认值200;

max_iter:最多迭代次数,默认值1000。

真假钞数据,将banknote数据集去掉Status标签列后赋值给 bn.tsne

可视化

查看每个特征的降维效果图:

假设数据分布在流形上,并沿着流形测量行间距离,利用流形学和投影技术达到降维目的。

第一步,计算高维空间中的点之间的距离,将它们投影到低维空间,并计算该低维空间中的点之间的距离;

第二步,使用随机梯度下降来最小化这些距离之间的差异。

相较于 t-SNE ,计算量较小、可预测新数据、确定性算法、保留双结构

n_neighbors:控制模糊搜索区域的半径:更少邻域 到 更多邻域;

min_dist:低维下允许的行间最小距离:更集中 到 更分散;

metric:选择距离的测度方法:欧氏距离、曼哈顿距离等;

n_epochs:优化步骤的迭代次数。

数据框包含4个变量,50个观测。

Murder:每十万人中因谋杀逮捕人数

Assault:每十万人中因攻击逮捕人数

UrbanPop:城镇人口百分比

Rape:每十万人中因强奸逮捕人数

根据umap1的大小将数据分簇,并设置不同的颜色:

设定 n_components = 3, 再运行 UMAP,将得到结果的 layout 部分传递给 ggpairs()。

as.data.frame() %%

setNames(c("umap1", "umap2")) %%

GGally::ggpairs() +

theme_bw()

是一种自组织(竞争型)神经网络,用两个维度来表示一个数据集,使相似的行更靠近。将距离小的个体集合划分为同一类别,距离大的个体集合划分为不同类别。

相较于K-means,SOM无需预先提供聚类数量。

SOM 与 LLE 的优点:非线性还原算法、新数据可以映射到SOM上、训练成本相当不高、LLE算法可重复。

SOM 与 LLE 的缺点:

1.输入层网络:输入层网络节点与数据集同行数,同列数,但数据集需要归一化。

2.输出层网络:一般根据数据集的维度来构建输出层网络。

(例:二维情况,希望分为4类,输出层可设计为4*2的矩阵)

3.随机给每个节点分配权重

根据输入层的数据集的维度和输出层的的预估分类数,定义权重节点的维度。

(例:数据集是二维的,权重的行数就定为2,分4类,权重的列数就选4。权重值一般给定一个0-1之间的随机值)

4.随机选择一行,并计算其与网格中每个节点权重的距离(相似度,通常为欧式距离),把此行放到权重与该行距离最小的节点中(BMU,best matching unit)。

5.更新BMU(基本思想是:越靠近优胜节点,更新幅度越大;越远离优胜节点,更新幅度越小)及其邻域内节点的权重(取决于邻域函数)。

6.重复步骤3-5,迭代指定次数。

LLE是广泛使用的图形图像降维方法,属于流形学习(Manifold Learning)的一种,实现简单,其假设数据在较小的局部是线性的,也就是说,某一个数据可以由它邻域中的几个样本来线性表示。(LLE 非常适合处理卷起或扭曲状的数据,但不能是闭合流形,不能是稀疏的数据集,不能是分布不均匀的数据集等等,这限制了它的应用。)

1.计算行间距,设定超参数k。

2.对一行选出其最近的k行,表示为其线性组合,该线性组合系数为权重。

3.对每行重复操作,使得数据在2或3维空间中(近乎)保持该线性组合关系。

优点:可以学习任意维的局部线性的低维流形、计算复杂度相对较小、实现容易。

缺点:算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响。

除了维数,k (近邻数量)是唯一需要确定的超参数,K可以通过函数计算出来:calc_k()

① m 表示维数,通常2 或 3

② kmin,kmax 决定 k 取值域

③ parallel,是否多核运行,默认为否

④ cpus 指定使用 cpu 核数

设置列名

检查缺失值

3D图形展示

让3D图像可以用鼠标转动

找出使rho最小的K值

使用最优的K值,降维:

降维攻击:供应链服务业的破坏性创新

“破坏性创新(Disruptive innovation)” 是由哈佛商学院教授克莱顿∙克里斯坦森(Clayton Christensen)在《创新者的窘境》一书中阐述的概念,近年来,破坏性创新理论被用于解释行业竞争格局变化,在位的领先企业在竞争中失败/被替代,即“好企业为何失败”的商业现象。破坏性创新往往来自于行业的新进入者,他们或者向既有市场的低端用户提供更低性能的(因而也是更廉价的)产品与服务,或者选择切入价值属性不同、规模较小而为主流竞争者所忽视的“非用户”需求,开拓出一个新的市场空间,并最终因性价比优势或用户价值诉求的转移而胜出,替代既有行业领先企业的市场地位。

图1 破坏性创新的模式

    与我们所理解的一般意义上的创新概念不同,破坏性创新并非在“持续改进”和“优质优价”方向上的创新,为客户提供更高端的产品与服务选择,那正是大企业所擅长的持续性创新(Sustaining innovation),同时也是通常所说的在位企业的“护城河”。

      相反,破坏性创新是一种由进入者所发起的“降维攻击”【1】,包括了两种模式:低端市场进入(去除冗余高性能)和“非用户”市场进入(满足用户新需求),无论哪种模式,都指向在位优势企业难以防御的边缘市场——由于禀赋能力、流程结构或者经济理性的限定。诺基亚Symbian系统在智能手机时代的消亡,供应链管理标杆企业利丰(HK.00494)跨国贸易业绩持续下滑,以及当下已经发生的社交媒体、移动支付对传媒电信银行等行业的冲击,带有破坏性创新特征的商业事件以越来越高的频率涌现,改变了诸多行业的竞争生态和格局。而解释诺基亚、利丰这样的“好企业”为何失败,则是破坏性创新理论的逻辑出发点。

与持续性创新不同,破坏性创新所针对的是一个行业长期演进所形成的价值网络(value

network)。克里斯坦森【2】在其分析中认为,价值网络是企业在其中确定客户需求、解决问题并争取利润最大化的大环境。价值网络映射了产品与服务的供应链体系,并且通过各个性能属性的经济价值(影子价格),驱动企业向着既有客户价值网络的最优成本结构和更高毛利率,进行持续性创新,从而产生某个行业的“好企业”,即投资回报最佳的少数竞争优胜者。

破坏性创新与行业技术的变革存在着天然的联系与互动,但是技术只有应用于产品与服务场景,重构而不是改良行业的价值网络,才会带来破坏性创新。而在既有的价值网络中居于领先地位的大企业,或是持续提升产品性能和毛利,满足高端用户需求的战略路径依赖性,或是囿于主流用户市场的规模经济和专用性资产投入,往往不愿或不能去改变既有的价值网络,因此更易于在低端市场或新的小规模市场遭到降维攻击——直至新用户需求、新技术应用改变了既有的价值网络,拉动了新市场的增长,在位者的市场地位被替代。

大多数扩张性行业,如动力电池、消费电商、体外诊断试剂(IVD)等,往往被称之为“跑道”,正是因为行业的价值网络趋同,比拼的是既有客户的关键性能指标——性能领跑者胜。而在另一些行业,在位者凭借技术积累和持续性创新,高质量地满足了既有客户的需求,从而取得稳固的市场地位,进入者难以正面进攻在位领先者。此类行业所面临的战略态势,往往是跑道和竞争规则的转换。传统的贸易与零售行业(供应链服务业)应属于后者。

供应链服务业是连接产品制造与用户交付的中间行业,其最初的形态是贸易、零售和物流业,随着供应链管理向着物流、商流、资金流、信息流集成的方向不断深化发展,供应链服务业逐步拓展到VMI、B2B、第三方物流、供应链金融、品牌营销、ODM/OEM、新零售等多个专业领域,出现了跨界融合、敏捷柔性的趋势。而供应链服务业也趋于价值主张的多样化,供应链的参与者投资于客户、渠道、物流网络、设计、品牌、数据以及金融服务等不同价值环节,谋求成为“链主”,获取供应链服务增值带来的的经济利润。

图2 供应链服务业的既有价值网络

香港利丰(冯氏)集团创立于1906年,凭借其独具特色的全球供应链管理,在上世纪90年代成为全球最大出口贸易商,市值曾高达2050亿港元,一度也被作为全球供应链管理的标杆企业案例,被产业界及学界广泛研究。

利丰模式的进化,经历了五个阶段:1)贸易中间人模式。凭借语言优势,在外资行垄断对华贸易格局下占得一席之地,盈利来源为买卖佣金。2)采购代理商模式。凭借对亚洲地区供应商的熟悉、贸易政策和各国配额的了解获取订单。3)增值代理商模式。客户向利丰提供一个初步的产品概念,再由利丰为客户定制一套完整的生产计划,并保质保量及时交付。4)虚拟生产商模式。利丰从代理商转变为供应商,与客户签订合同,自身从事附加值较高的产品设计和开发,将生产环节外包。5)供应链管理模式。利丰延伸业务至产业链两端,并通过数字化工具打通各节点,成为整个产业链的规划者和管理者。【3】

在供应链服务业的战略观察者看来,“百年利丰”的管理者能够推动持续性创新,做出了“合理而适当”的战略选择,在全球供应链上聚焦于优质客户,不断丰富设计、采购、物流和虚拟制造等环节的服务,是一家典型的“三创四化”的,既有价值网络中的“好企业”。

但是,自2013年以来,利丰的经营业绩持续下滑,营业额从2013年的207亿美元下降到2017年的135亿美元,经营溢利(EBIT)从8.5亿美元下降近七成至2.7亿美元;利丰(HK.00494)还先后剥离了品牌管理、健康保健产品、家具、美容品等业务,市值缩水近90%。在某种意义上,利丰也陷入了“创新者的窘境”,那么,对供应链服务业在位领先企业形成冲击的破坏性创新,究竟来自怎样的技术变革和商业模式呢?

  图3 利丰(HK.00494)股价走势

从供应链服务业的既有价值网络可以看出,分销商处于供应链的中间层,传统贸易中间商主要依靠供应链环节的信息不对称,从批零差价、仓储物流以及资金融通中获取利润,随着品牌和零售端的增长,“链主”的崛起,中间层的分销商会选择品类专业化聚焦或延伸供应链,以维持利润率和市场地位。

消费品供应链具有多品种、快响应、成本领先等价值主张,而利丰在服装、玩具品类上长期服务于西尔斯、沃尔玛等大客户,在大客户与大量分散的供应商之间,作为中间层提供了设计、采购、供应链管理等增值服务,承担虚拟生产商的角色。基于利丰的客户需求和供应商网络,这一战略在贸易中间商转型供应链管理的过程中具有路径可行性和资源匹配性。

但是,在全球化与金融危机、互联网电商、消费趋势以及产业转移等因素的作用下,全球消费供应链的变革已经且正在发生:被应用于商业模式变革的破坏性技术来自互联网。B2B、B2C电商前所未有地直接连接了消费者、制造商和供应商,“去中间化”作为一种破坏性创新,对分销和零售环节发起了多方位的“降维攻击”,重塑了供应链服务业的价值网络,也OTT(over the top)了百年利丰引以为傲的供应链资源禀赋和能力。

当然,近年来利丰也曾采取收购海外市场分销商、进入品牌管理与授权业务、搭建供应链数字化平台等行动来应对变革,但利丰从根本上来说是一家客户导向、成本领先的供应链服务商,它或许能够在持续性创新方面(如专业化、特色化、品牌化、国际化)做得很好,但是在新一代消费者需求和互联网、敏捷柔性供应链方面,利丰没有变革得足够快。【4】

上述破坏性创新的主要技术应用来自互联网+消费场景,实现新的价值主张依赖于互联网对于人的连接效应:降低产品与服务的搜寻成本,提供更新的消费体验以吸纳新的用户,所以利丰的失败并非由于客户战略或管理决策的错误,而是在位者不愿或不能在组织与价值观上因应技术的变革,是某种“组织理性选择的失败”。值得注意的是,作为继互联网技术之后的下一波破坏性技术变革,大数据与人工智能技术可能将“去中间化”趋势进一步扩展,为供应链服务业带来更深层次的破坏性创新,如AI营销算法、无人零售、智能制造以及智慧供应链等领域。在位的、以互联网为基础能力的领先企业,也将面临下一波破坏性创新的挑战,而动态的、随需而变的组织与流程正在成为未来企业的一种核心能力。

正如克里斯坦森在《创新者的窘境》一书中所发现的:1)持续性技术与破坏性技术之间存在重大的战略性差异;2)持续性技术进步可能超出市场的实际需求;3)成熟企业的客户和财务结构更倾向于持续性而非破坏性创新。因此,在应对破坏性创新的冲击时,在位企业在组织上需要建立独立的创新业务部门,并在资源分配、组织目标与价值观上区别于既有的企业核心业务,即便既有核心业务已经处于技术和市场领先地位。组织赋能与协同的战略逻辑,很大程度上并不适用于驱动破坏性创新的新兴业务事业部。

腾讯战略投资部通过不断并购投资于破坏性创新的公司(虎牙、映客、拼多多…)来保持腾讯系对破坏性创新的响应能力;永辉超市通过独立平台永辉云创孵化了超级物种、永辉生活等创新业务。在位者应对破坏性创新的组织策略,实际上是在体系内培育“异类”和“鲇鱼”,核心能力和战略方向都与母体迥异甚至对立的独立创新部门,——虽然从商业模式演进与变革的意义上,所有的在位者都将失败,降维攻击恰恰来自于那些低端、规模小的市场缝隙。

从传统贸易向供应链管理的战略转型进程中,汇鸿与利丰在供应链价值网络和价值主张上,具有较大的相似性。作为进出口贸易行业内供应链管理的标杆企业,利丰仍然有很多值得汇鸿借鉴的业务模式和经营管理的经验,例如客户导向的小型产品部门,对供应商网络的有效管理,以及向微笑曲线两端研发和营销的投入,但是在技术与商业模式急剧变革的时代,在位者不能不对行业的破坏性创新保持高度的敏锐,并且从组织架构与流程、前沿技术应用和创新技能储备方面做好应对措施,进而主动地驱动破坏性创新及其带来的商业变革。

【1】降维攻击,出自刘慈欣的科幻小说《三体》,将攻击目标所处的空间维度降低,致使目标无法在低维度的空间中生存从而毁灭目标。在企业竞争战略中可理解为减少产品属性,利用低成本或差异化优势攻击对手的商业模式。

【2】克莱顿∙克里斯坦森:《创新者的窘境》,中信出版社,2014年1月第2版。

【3】平安证券综合研究所:《供应链研究系列报告一:利丰模式》,2018年5月

【4】张少华:《利丰危局——百年华资头号贸易采购公司的兴衰史》

联通物联卡网速慢怎么设置APN才能变快?

联通物联卡apn设置4g最快网络

您好,联通物联卡网速慢设置APN的步骤是:1.找到手机里面的设置;2.打开手机的网络设置;3.选择流量卡插入的卡槽进行相关设置;4.找到接入点名称:APN;5.新建一个接入点(APN) 名称随便 APN:UNIM2M.NJM2MAPN 默认选择1;6. MCC和MNC默认留空即可。谢谢。

3gNET和3gWAP是我公司3G网络的两个不同APN(Access Point Name接入点名称),无论通过3gNET或是3gWAP都可以登陆互联网(WWW)和手机网(即WAP网),两者的区别不大,3gWAP是应用于手机上的网站,3gNET是互连网,3gNET可提高更好的联网质量,只要手机支持或下载相关手机软件即可自由访问互联网。除此之外,部分定向流量限定为3gNET接入点才可以使用,建议留意相关的业务规则。

请问联通物联卡4G卡的APN具体配置信息怎么配?比如APN类型 以及MNC 等等

一般物联卡接入点选择cmwap,不同物联卡具体IP设置不尽相同,具体情况请咨询企业管理员或者客服经理了解。

谁懂联通物联网卡怎么设置APN

安卓设备在“设置”-“网络”菜单中可以配置接入点参数。将原有ctnet接入点的配置数据中用户名改为m2m或*.m2m即可,其他参数无需修改;若新建APN,则参考ctnet的相关数据配置。具体步骤:

在手机菜单里面找到设置,点击进入。

在设置里面找到网络或者更多网络选项,点击进入。

网络选项里面找到APN接入点,点击进入。

点击接入点名称进入,查看里面的APN是否选择的是ctlte。如果不是,请设置为ctlte即可。

结语:以上就是首席CTO笔记为大家整理的关于物联网怎么降维的相关内容解答汇总了,希望对您有所帮助!如果解决了您的问题欢迎分享给更多关注此问题的朋友喔~


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:/IOT/34461.html