[转载]让PC读懂你的图_木先生_新浪博客
呃,这技术可怕。已经踏入新时代的计算。可怕可怕。。。

 

本文转载自CHIP《新电脑》20105月号,《科技与未来》专栏将在今后的几期中,陆续介绍微软亚洲研究院的新技术,我们将及时转载,与您分享新技术的精彩

计算机拥有思想,拥有人类的判断力,这似乎只是科幻片中的场景。然而微软亚洲研究院的技术专家们却相信通过不断的技术创新,计算机的判断力能够达到甚至超过人类,在图像的辨别方面他们的一些研究成果已经超乎了我们的想象。

 

计算机在运算速度上的发展突飞猛进,摩尔定律仍旧在不断发挥作用,然而这个被称为电脑的设备却更像个“无脑儿”,它只能机械地重复执行一些人类预先制定的指令,丝毫没有高级的判断能力。它只能为我们保存照片,却无法帮我们从人群中找出张三或李四,它可以帮助我们修改照片但是却很难xx地区分出蓝天与沙滩。然而这一切正在被微软亚洲研究院视觉计算组的研究员们悄然改变着。

 

PC也能望图生“意”

 

计算机与图形图像的关系目前主要集中在两条主线上发展,其一是计算机制图,也就是借助计算机和二维、三维绘图软件来构建图片,如进行三维建模再配合光影生成几乎与现实世界xx相同的照片或视频;其二是借助计算机获取自然界的图片与视频,并借助计算机来存储、整理和编辑这些资源,而后者就是视觉计算。

 

由计算机创造的资源由于具有源数据,在被计算机解读时会更加容易,例如在Photoshop中手绘的碧海与蓝天,可以分别放在不同的层中,选取和处理都非常方便。但是从自然界获取的视觉资源则xx没有用于分辨信息的源数据,所以如何让PC能“读懂”这些视觉资源并把它所蕴含的意义恢复出来,就成为了摆在每个视觉计算研究人员面前的课题。读取视觉资源的含义同样分成多个层次,大到让计算机自动区分出照片中的汽车或行人,小到图片对齐都需要计算机能“看懂”视觉资源。

 

在互联网时代到来之前,我们的数据并没有像现在这样丰富,计算机在处理数据方面,更多地是扮演存储、传输和输出的角色.然而在互联网带宽飞速提高的今天,我们的主要信息载体也开始由文字转换成图片甚至视频资料,随着民用图像和视频捕捉设备的迅速普及,图形与视频资源的共享和交流网站大量涌现,互联网上的视觉资源呈爆炸性增长,依靠人类手工去编辑这些视觉资源添加源数据信息变得非常不现实,因此由计算机“读图”的需求就愈发凸显出来。

 

在传统的数字信息分析领域,如xx的雷达信号、声纳信号或电磁波信号,这些信号都采用了专业的高精度设备,按照统一的标准进行采集,信息的质量很高,干扰因素很少,而且这些数据信息的内容相对单一,数据量也相对较少。目前互联网上的视觉资源则xx相反,由于地域、拍摄手法和采集设备等的巨大差异,这些视觉资源非常杂乱无章,无规律可循,而且质量也参差不齐,但是这些数据的规模又是异常庞大。因此,互联网上的视觉资源分析要采用全新的角度,既要解决冗余信息处理的问题,也要对视觉资源进行标准化规范处理,最终才能从这些数据中获取到具有价值的信息。

 

现在视觉计算领域的研究也正在两个方向上发展着,首先是基于统计学的视觉资源分析技术,这种技术主要依靠分析视觉资源的特性,并将这些特性借助统计等数学分析方式提取出来,并最终应用到实际的工作中;另外一种方式则在近两年内兴起,与传统的二维等低维度数学分析手段不同,这种新的分析方式将视角从原来数学意义上的低维度上升到了多维度,用全新的数学角度在多维视角上重新看待这个问题。借助全新的数学模型,原来很多看似不可能实现的视觉计算问题都得以迎刃而解,例如借助这种新的模型,带口罩或墨镜的人脸都可以被计算机读取和识别。这两种技术研究都已经开始展现出惊人的成就,我们发现计算机正在迈向望图生“意”和“看图说话”的时代。

 

相册整理PC

 

数码拍摄设备的普及让我们数字照片的数量飞速增长,如何更好地分类整理这些照片就成了每个人要面临的问题。{zx1}的视觉计算人脸分类技术已经走向成熟,甚至有些厂商已经将它应用在{zx1}的照片管理软件中。

 

用人类大脑的方式选图片

 

在微软亚洲研究院这方面的研究早在2005年就已经开始,微软的研究员希望计算机可以自动识别出人脸的特征,并且根据这些特征自动完成分组的操作。实现这一目标遇到{zd0}的一个难点是如何挑选特征点,由于照片是在不同场景和环境下拍摄的,所以即使是同一个人,他面部的特征也会因为受到光线和表情等不同因素的影响而发生改变,要提高自动面部识别的效率,就必须找到对外在不利因素不敏感的特征或特征组合。人类辨别人脸的时候使用了类似的方法,首先人类大脑可以找到辨识出某个人的关键特征,同时又可以忽略掉所有因为外界因素而发生改变的特征,这种看似矛盾的机制帮助我们很好地区分邻居张大爷和李阿姨,然而如何才能让计算机也拥有类似的能力呢?

 

起初,让计算机对哪些特征进行识别xx是手工指定,这样指定的特征通常不理想,会影响识别的准确率。而微软亚洲研究院的研究人员发现,可以借助海量的人脸数据库来计算和优选这些特征和特征组合,他们将已经包含准确结果的海量人脸数据库作为计算样本,使用机器学习的方法不断去尝试构造人脸特征和特征组合,并用这种构造的数据来计算识别的准确率,经过这种统计学的海量计算之后,最终就可以获得一组最xx的人脸识别特征组合,这组特征对外界不利的因素具有{zh0}的抵抗能力。接下来通过综合考虑实际使用环境的因素后,如目前计算机平均CPU和内存的处理能力,再对优选过的特征组合再次进行优化,最终将其应用到图片整理软件中,图片整理软件会使用这组特征值去处理所有的图片,以实现识别人脸并自动分组的功能。 

通过计算视频中的景物,可以李代轻松找出里面运动中的人

 

用综合技术提高识别率

 

虽然人脸识别分组技术已经被一些厂商投入实际的应用,而且微软也即将在不远的未来在两款产品中使用这一技术,但是这一技术仍旧存在很大提高空间。

 

目前基于人脸特征的提取组合仅仅是停留在尽量与人类接近的层面上,还远达不到超越人类的能力,例如,在识别侧面人脸时,计算机的识别效率会明显下降,而且在人脸转向一侧超过45度时,计算机就很难将其与正面的人脸归为一类。但是与之相反的是,人类识别的能力在人脸侧向30度时反而是{zj0}的,这说明人类的特征提取还是与目前海选出来的特征组有一定区别。

 

另外,与计算机相比,人类还具有借助关联特征进行判断的能力,例如人类在判断一个人时,借助当时所处的位置、对方的头发和衣服就能进行判别,甚至只看到这个人的背影都能进行准确的判断,这些关联特征分析大大提高了人类的判别能力。事实上微软亚洲研究院的研究人员发现,当只提供人脸而不提供头发等其他相关特征时,人类的辨识能力与计算机区别不大。虽然计算机也能够对这些关联特征进行提取,但是由于这些特征千变万化,判断这些信息是否可靠比较困难,因此目前借助关联特征信息进行辅助判断的技术仍旧还不成熟。

 

目前微软亚洲研究院的研究人员仍在努力借助关联的信息来完善和提高人脸识别的能力,例如在图片库中导入新的一组聚会照片,虽然图片库中有一个外地亲戚的容貌与你十分接近,但是这个人出现在聚会中的几率会很低,借助这样的信息就可以帮助计算机进行辅助判断,提高计算机区分你们两个的能力。类似这样的关系数据也许与人脸本身的特征并不相关,但却有助提高人脸的识别效率。

 

在研究与人脸相关的特征信息方面,也并不是xx无据所寻,比如借助头发这一关联特征数据来进行辨别,虽然头发会经常改变,但是结合概率统计的方法,头发仍旧在进行人脸识别时可以起到一定的作用。

 

由PC绘制的数字“印象”

 

让计算机读懂图像,是视觉计算的一大挑战,要想从根本上解决这一问题,使用传统的思路和方法已经非常困难,而近两年出现的采用从多维角度看待视觉计算问题的思路则取得了巨大的进展。

 

新数学模型引发的变革

 

将图片中人脸信息有效地抓取出来,最重要的是要有一种行之有效的数学模型和算法,否则将无法非常有效率或十分精准地将图片中的信息抓取出来。目前人脸识别的数学模型和计算方法仍旧主要基于传统的统计学模型,而这种模型主要是用来进行低维度信号的处理和解释的。而图片或视频这种高像素的数据则是一种高维数据,随着对视觉计算要求的不断提高,研究人员发现使用传统的数学计算方式会有很明显的局限,取得突破的难度会很大,为此必须寻找新的数学模型。

 

在几年前,以华裔澳大利亚籍数学家陶哲轩为代表的一些数学家率先意识到,在高维空间中,一些原先公认的很难的 (NP-hard) 组合问题,可以用一系列高效的优化算法来解决。马毅的研究组很快认识到,这些强大的计算工具正好可以用来解决目前视觉计算所面临的难题,而且最终的计算结果非常理想。这种新数学模型和理论在最近两年引发了讨论的热潮,而且数学模型和算法正在不断地被优化,这种新的思路正在逐渐带来视觉技术方面的新突破。

 

采用在高维空间中进行计算的新思路后,很多事情都发生了改变.原来很多的概念和工具都建立在低维空间中,而在高维空间中,很多结果正好与低维空间相反,低维空间中认为一定可能发生的事情,高维空间中一般不发生。因此在传统低维计算思路下认为基本实现不了的事情,甚至人都做不到的事情都可以在高维空间中被实现。例如在传统观念中,一张70%~80%内容被高度损坏的照片无论计算机还是人都是无法再辨识的,但是在这种新的数学模型下,剩下20%~30%图像所蕴含的数据量仍旧是惊人的,依然可以用于xx计算,因此,进行准确辨识xx不成问题。

 

视觉计算超越人类

 

在这些数学模型和计算思想的基础上,微软亚洲研究院的研究员们正在不断进行技术优化和改进,并开始产生了一些十分有趣的应用。例如,他们正在努力尝试将网络上同一个人的海量照片数据导入,并通过算法对画面中的元素进行分析以实现自动对齐。更神奇的是,通过优化算法,这个工具可以自动分析并找出这个人每个重要器官的特征,借助这个特征来修补其他残缺不全的照片,例如为没有头发的照片加入头发,去掉挡在眼睛前边的墨镜,甚至还能将大笑的嘴改成微笑。这种自动修补技术xx基于同一个人面部特征的数据分析,因此具有极高的准确率。有趣的是,计算机还可以将一个人的面部每个重点特征的共性提取出来,并组合生成这个人的“视觉印象”。生成虚拟印象照片的数据来源于这个人海量照片的综合统计,所以即使是虚拟的照片仍旧惟妙惟肖,与我们脑中对此人的印象不谋而合。

 

微软亚洲研究院还尝试将这种技术应用在视频上,实际上视频就是连续播放的图片,而这种连续和关联的图片正好可以满足新数学模型计算的需要,通过对连续图片的分析和计算,新的视觉计算系统可以找出视频中每幅图片的相似点和不同点,有了这些数据,就可以实现很多原来看似无法完成的视频编辑功能,例如从视频中只提取出两个运动的人,或者修复老旧电影胶片上的划伤。

 

让人兴奋的是,由于这一新兴技术存在巨大的潜在价值,引来了数学家、统计学家和工程师等专业人士的广泛关注,该技术正在迅速走向成熟,计算效率正在突飞猛进地提高,估计再需要3-5年左右的时间,这一技术就可以走向大众。

 

微软的特色视觉计算

 

相似图片搜索

 

其实除了人脸之外,所有图片都存在特征,微软亚洲研究院的研究员们正在尝试将搜索关键字与图片特征相结合,以实现更加精准的搜索。例如应用在必应(Bing)图片搜索中的视觉计算技术,我们首先可以使用关键字“Apple”进行搜索,找到所有与苹果相关的图片,接下来我们还可以通过点击红色苹果图片旁边的寻找相似图片的链接来找到所有红苹果的图片。 

首先例用“CHIP”这个关键字进行搜索,然后选择相似图片功能,通过视觉计算技术可以将类似的图片找出来

 

微软亚洲研究院的研究员们按照单一物体、室外场景、人等几大类来区分图片,并为每类图片设定一组特征值,通过提取和比对特征值就可以帮助用户最终找到相似的图片了。

 

365个蓝天梦想

 

一年有多少个蓝天象征着我们所生活城市的空气质量水平,而在微软亚洲研究院的数字世界中,他们已经赶走了雾气,通过视觉计算的去雾技术,任何图片或视频中的雾气都可以被去除。

 

实现这一目标的难点在于,如何让计算机知道照片或视频中有雾的干扰,计算机需要能够分辨雾气和白色背景的图片。微软亚洲研究院的研究人员发现,分别计算红、绿、蓝3色的黑通道,在红、绿、蓝3个通道中将每个像素的周边范围设定为一个临域,在这个临域中用最黑的点代替最初的像素点,这种“临域取小”的过程就可以得到黑通道。最终得到的有趣现象是,如果是一张没有雾的色彩鲜艳的图片,黑通道会很黑,看不到什么内容,而有雾的图片的黑通道则不会那么黑。这样就可以区分出图片是否带雾。通过接下来的一系列公式的计算,微软亚洲研究院的工程师们不仅可以把雾去掉,还可以单独将雾提取出来,由于远处雾浓,近处雾淡,我们还可以得到这张照片的深度信息。 

 

通过将图片的R、G、B3个通道转为黑通道,就可以判别出照片中是否有雾存在

 

目前这种去雾的视觉算法效率已经很高了,使用配置较高的PC,借助这种算法就可以实现在拍摄视频时的实时去雾。

 

高速智能选取

 

不知道大家是否还记得在,CHIP曾经介绍过再Office 2010的图片编辑工具中加入了自动选取的功能,这个功能可以帮助我们自动选择图片的前景并去掉背景。实际上在微软亚洲研究院中这一技术已经变的更加强大。

我们不再需要一点点地选择前景和背景,只需要使用一个类似笔刷的工具在图片上快速刷过,即可快速建立图像选区。更重要的是,这个选取算法经过了特殊优化,即使在一张几十兆甚至上百兆的图片上进行这样的操作,也可以在瞬间完成,远远快于目前主流图形编辑软件的类似功能,而且在边缘细腻度上,微软的选取工具表现也非常出色。 

 

新的图像选取技术操作简便、准确率极高,而且速度很快

 

——————————————————————————————­———————————— 

欢迎关注软亚洲研究院微博 

 

 

郑重声明:资讯 【[转载]让PC读懂你的图_木先生_新浪博客】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——