奇异值分解和潜语义标引_建筑的永恒之道_百度空间

如果说矩阵理论是一个操作系统,那么奇异值分解(singular value decomposition)便是此操作系统上的一个杀手级应用。正如当年linux正是凭借其杀手级应用apache迅速占据了服务器市场,奇异值分解在信号处理、信息检索等领域的应用也使人们见识了矩阵工具的神奇。

对于一个秩为r的矩阵的Am×n,奇异值分解可将其表示为如下的形式:

其中Um×m和Vn×n都为正交矩阵,即矩阵的各行或各列都为单位向量且两两正交。D为对角矩阵diag(σ12,...,σr),且σ1≥σ2≥...≥σr>0。其中σi被称为A的奇异值 (singular values),矩阵U和V的列被称为A的奇异向量(singular vectors)。

奇异值分解有非常丰富的奇妙性质,不能在一篇文章中尽述。本文主要针对潜语义标引(latent semantic indexing)这个应用来理解奇异值分解的各种性质。

对于文档集合D1,D2,...,Dn,和m个词(或短语)的集合T1,T2,...,Tn,可以构成如下的矩阵:

其中Aij表示第i个词在第j 篇文档中出现的频率(或加权频率),di是文档向量。在信息检索领域,可用两个文档向量的夹角来表征两文档的相似度,夹角越小则越相似,如果两向量正交则表示它们没有关系。

对文档向量集合A进行奇异值分解,表示为A=UDVT,对得到的对角矩阵 D=diag(σ12,...,σr,0,...,0),只保留{zd0}的的k个σi,得到Sm×n=diag(σ12,...,σk,0,...,0),令A'=USVT。则A'为潜语义标引的文档矩阵。对这个矩阵的含义,从如下一些角度进行理解:

1,A'相对于A进行了降维,A的秩是r,而A'的秩是k。

2,模|A-A'|=σk+1,取一定的k可以使得σk+1很小,即用矩阵之差的模来衡量两矩阵的相似程度的话,可以认为A与A'非常接近。且A'是所有秩为k的矩阵中与A最接近的,即A'是对A在较低维度下的一个很好的近似。(具体证明略)

3,从过滤噪音数据的角度来理解:由于词语的歧义和模糊性,可以认为文档矩阵A是存在很多噪音的,而通过奇异值分解可以去掉噪音。将A的奇异值分解进一步表示为:

(其中ui和vi分别表示U和 V的第i列)

集合{uiviT}中的矩阵两两正交且模为1,因此上式表示将A分解为r个正交的部分。由于噪音的随机性,可以认为噪音会均匀地分布地到r个正交部分,即认为r个部分噪音的量是相同的,那么对于上式中σi较小的部分,将具有更低的信噪比。因此舍弃σi最小的若干个正交分量,即能在重要信息损失很小的代价下,抛弃较多的噪音。

4,文档向量的分解

对于矩阵A中的第k个文档向量Ak(即矩阵A的第k列),通过A的奇异值分解可以表示为:

Ak=∑σiuivki (其中ui表示U的第i列,vki表示V的第k行第i列的值)

即可以将每个文档向量分解到r个正交的方向u1到ur。这r个正交向量可以认为是语义上正交的r个概念,ui表示第i个概念。vki表示第k个文档属于第i个类别的权重。

5,降维的分类意义

从第4点可以看到,即使不降维仍然可以达到分类的目的。但由于词语的模糊性,会导致会得过细的情况,使相近词语表达的同一类意思分不到一起。降维使得正交的概念从r个减少为k个,使得A'中的文档向量不被xx地表示,恰恰使得相似文档的表示趋于接近,使一个文档可以与不出现在其中但相关的词语建立起联系。

如果k设得较小,则奇异值分解可用于文本分类;如果k设得很大,则可以达到潜语义标引的作用。

6,分类的合理性

正交矩阵U的各列表达了良好的分类,是由文档向量夹角表征文档间相似度的假设决定的。在这个意义下,假设两向量分别与ui和uj方向相同(i≠j),它们是不相似的,因而属于不同的类别。



郑重声明:资讯 【奇异值分解和潜语义标引_建筑的永恒之道_百度空间】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——