中国科学院大学MBA教育管理中心

《领域大数据系列讲座》计算机视觉之“求真务实”

日期：2021-11-25

2021年11月19日，《领域大数据系列讲座》第七期以在线的方式顺利进行，中国科学院大学人工智能学院副院长兼副书记肖俊教授给大家带来题为“计算机视觉之‘求真务实’”主题讲座。

肖俊，教授，博士生导师，中国科学院大学人工智能学院副院长兼副书记，中国科学院大学教育基金会副秘书长。任中国人工智能教育联席会常务理事，中国科学院人工智能产学研创新联盟战略研究组成员，中国自动化学会模式识别与机器智能专业委员会委员、中国图像图形学学会青年工作委员会委员。主要从事计算机视觉、工程计算等相关研究，主持国家重点研发计划课题、国家自然科学基金项目等橡木20余项，发表学术论文80余篇，并出版专著1部。入选中国科学院青年创新促进会优秀会员和北京市科技新星。

计算机视觉被图灵奖获得者Jim Gray列为12大信息科学问题之一，是当前人工智能领域的研究热点。本次讲座从计算机视觉概况、三维重建、图像取证三个方面带领大家进入计算机视觉的世界。

计算机视觉概况

视觉是人类智能的重要组成部分，人类获取的信息70%-80%来自视觉。通过视觉，人类可以清晰捕获各种特征，从而拥有奇妙无穷的识别能力，而人类同样希望机器具有人的视觉功能。所谓计算机视觉，就是利用计算机机器辅助设备来模拟人的视觉功能，实现对客观世界的三维场景感知、识别和理解。计算机视觉是一门研究如何使机器“看”的科学。通过这一研究，使计算机具有通过一副或者多副图像认知周围环境信息的能力，即使计算机具有从二维图像认知三维现实环境的能力，或者利用二维投影图像来重构三维物体的可视部分。其目标主要包括：根据一副或者多福图像计算出观察点到目标物体的距离，目标物体的运动参数以及目标物体的表面物理特性。

通过计算机视觉的研究，可以把人类从一些诸如安全监控，邮包分拣等繁杂的工作中解脱出来，同时帮助人类处理一些人类视觉无法处理的工作，比如海底探测，登录火星等，最终使人类的生活更加丰富多彩。

因此，计算机视觉的目标是使计算机像人类一样，通过视觉，观察和理解世界。

计算机视觉与人工智能

所谓智能，通俗的讲就是知识和智力的总和。知识是智能的基础和前提，智力是获取和运用知识求解的能力。根据表现智能的主体，可以分为自然智能和人工智能。人类智能是地球上最高级、最发达、最具代表性的自然智能。而人工智能是希望可以研制具有类人智能的智能机器，其表现形式主要分为六大方面：

会看：图像识别、文字识别、车牌识别

会听：语音识别、说话人识别、机器翻译

会说：语音合成、人机对话

会行动：机器人、自动驾驶汽车、无人机

会思考：人机对弈、定理证明、医疗诊断

会学习：机器学习、知识表示

由此可知，计算机视觉是人工智能的一个重要方面。经过多年的发展，目前人工智能基本演化为六大方面：计算机视觉、自然语言理解与交流、认知与推理、机器人学、博弈与伦理和机器学习。而计算机视觉的主要研究内容包括底层视觉、中层视觉、高层视觉。

计算机视觉发展历程

计算机视觉从二十世纪50年代开始，经过六个阶段，一直发展至今。

随着近年来深度学习的流行，计算机视觉得到了迅猛发展。其中，美国《麻省理工评论》评选出2013年度10大突破性技术，深度学习（Deep Learning）居首，成为目前最为流行的计算技术。它在图像识别等领域取得目前最好的识别结果，在有些任务上甚至超过了人类的水平。目前计算机视觉发展的现状主要在以下几个方面：

物体分类：对图像中的物体进行自动分类，经过多年的发展，在此领域取得了很大的进步，目前，分类的错误概率达到2%以内，超过人类的水平。

目标检测：目标检测即自动从图像中检测出感兴趣的目标。在这一领域，计算机视觉还在逐步优化发展阶段，目前还未达到人类的水平。

生物特征识别：生物特征识别包括人脸识别、掌纹识别、指纹识别、虹膜识别等等。已经在很多领域进行了实际应用。

除此之外，现阶段计算机视觉还在物体分割、无人驾驶、无人飞行器、场景三维建模等领域进行发展。

计算机视觉行业应用

经过近些年的发展，计算机视觉的行业应用非常广泛。涵盖了：在工业领域的零件识别与定位、产品检验、移动机器人导航和自动车导航、遥感图像分析、医学图像分析、安全鉴别与监事、以及动画和考古等领域。

应用一：自动驾驶。谷歌、百度等公司依据自身的技术实力，已经初步实现了无人驾驶。

应用二：医疗-辨病。美国斯坦福大学的人工智能医生，诊断皮肤癌达到专业医生水平。该大学一个联合研究团队开发出了一个皮肤癌诊断准确率媲美人类医生的人工智能，相关成果刊发在2017年1月底《自然》杂志的封面论文，题为《达到皮肤科医生水平的皮肤癌筛查深度神经网络》。这个神经网络的诊断准确率与人类医生不相上下，达到91%左右。

应用三：智能视网膜。美国的一家科技公司，通过此技术试图让盲人可以看得见东西。预先需要把芯片植入病人大脑，目前可以达到100多像素，已经实现了从0到1的过程；目前世界范围内已经有200多人做手术，后续有广阔的发展空间。

应用四：监控。通过远程监控可以对异常行为进行检测。

应用五：金融。2018年4月国内首家“无人银行”在上海营业：两位智能机器人取代了银行柜员及工作人员，市民通过身份证实名认证即可入内办理各种业务：充分运用了生物识别、语音识别、数据挖掘等最新金融智能科技成果，整合了机器人、智慧柜员机、VTM机、外汇兑换机、人脸识别、语音导航等前沿科技。

随着计算机视觉在各个行业的广泛应用，诸多优秀的科技企业，美国的谷歌、IBM、Facebook、中国的百度、华为、商汤科技等企业纷纷进入此领域，推动计算机视觉的发展。

计算机视觉现状和趋势

虽然经过了几十年的发展，但是就目前来看，计算机视觉仍旧处于初级阶段。人的视觉系统是一个通用系统，可以协调处理大量不同的任务。目前的计算机视觉系统还只能处理少量单一而简单的任务，比如：对于图像的分类和目标检测需要不同的算法实现，还无法融合到一起进行，也说明在此领域人工智能还处于初级阶段。而从灰度图像、到彩色图像、再到深度图像的信息量十分巨大，给特征提取造成了较大的困难，与此同时，存储和计算问题也日益突出。

虽然目前存在着一定的困难，但是随着技术的不断演进，计算机视觉在以下两方面依旧会向前发展：

通用视觉技术：能够处理复杂多样的任务。

类脑智能：借鉴人类或者灵长类动物大脑的生理机理。

三维重建：追求三维真实感

所谓“三维重建”，是指对三维物体建立合适的计算机表示和处理的数据模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界到的虚拟现实的关键技术。三维重建是连接数字世界和物理世界的桥梁。

三维重建是呈现真是世界、对虚拟世界进行可视化的有效方法。香港科技大学权龙教授在2018年全球人工智能与机器人峰会上指出：计算机视觉下一步必须走向三维重建。而建模的真实性和精确性一直是学术界和产业界追求的目标。

三维重建主要分为以下两类：

基于计算机软件的三维重建：借助CAD，MAX，MAYA等计算机软件进行三维重建。

基于计算机视觉的三维重建：随着重建对象复杂度的提高，只使用软件通过手工方式绘制来重建物体的三维模型已经不能满足用户的需求，特别是在一些复杂对象的建模中，使用软件建模是一个不可能完成的任务。在这种情况下，借助外部设备对物体进行三维重建。包括基于三维物体断层扫描的重建、基于扫描仪的重建和基于图像的重建。

在这些建模方法中，各有优缺点，可以应用于不同的场景。而三维建模也是碰撞检测、工程计算等工作的基础，已在工业、军事、娱乐等各个领域得到了广泛的应用。

图像取证：追求二维的真实

随着数字化程度到的不断提高，人们接触到照片、图片越来越多，并越来越偏爱照片和图片，“数字照片时代”已经到来。与此同时，越来越多的图像处理和编辑软件的广泛使用，让修改、编辑以及存储数码照片变得越来越简单和有趣。人们在尽情享受现代多媒体技术及数字传输技术带来愉悦，当人们在毫无限制的任意编辑、修改、复制和散步数字图像、视频时，这些数字媒体原创者的版权和经济利益如何可以得到保护？以及人们所看到的图像是否真实可信？

2017年，陕西林业厅公布了周正龙拍摄的华南虎照片。这一照片后来经专家多方证实，照片中的老虎是假老虎。

与此类似，2006年，第二届中国国际新闻摄影比赛“华赛”金奖作品《中国农村城市化改革第一爆》为接片作品。

这些案例说明，数字图像篡改和伪造如果被用于正式媒体、科学发现、保险和法庭证物等，将会对政治和社会稳定产生重要的影响。数字图像取证势在必行。

数字图像取证主要分为主动数字取证和被动数字取证。主动数字取证需要对图像进行预处理，通过分析所获得的图像中添加的预处理信息判断内容的性质，并实施相应的判断。被动数字取证不事先预处理待取证的内容，它通过分析待取证图像本身的性质实现判断。下图展示了数字图像内容真实性篡改取证分类。

除了上述技术手段的保证，国家也出台了相应的法规来对数字影像的真实性进行保护。

经过两个多小时的时间，老师给大家介绍了计算机视觉的发展以及现阶段的一些应用。尽管计算机视觉已经有了近40年的发展历史，但目前仍旧处于初级阶段，并且还将持续很长一段时间，而核心技术仍需要进一步深入研究新的更为有效地理论方法。总之，计算机视觉的终极目标不是达到人类视觉，而是超越人类视觉。

（文、图/那云鹏）