近年来,人工智能的快速发展让多个领域发生了重要变化。作为人工智能的核心分支,深度学习的高速发展也对机器视觉产生了颠覆性的影响。
究竟何为机器视觉?机器何以“看见”?相比人眼,机器视觉具有何种优势?又能在哪些领域发挥重要作用?
机器视觉的“前世今生”
众所周知,人类借助五种主要感官认识世界,其中获取信息的80%来自视觉。我们之所以能获取所看到的信息,其实是由物体的反射光照到人眼中,再借助眼中的光感受器将光信号转化为电信号,然后交给大脑进行处理,从而形成人类视觉。
视觉作为人类最高级别的感知对于人们而言非常重要,而在机器的世界里,视觉的重要性也不可小觑。所谓机器视觉便是为机器装上“眼睛”,用传感器来代替人眼,以电脑来代替人脑,自动处理分析图像或视频,使机器能够“看懂”环境并自主决策的技术。
事实上,机器视觉的出现可追溯至20世纪60年代。1963年,机器视觉领域出现了第一篇博士论文《三维实体的机器感知》,论文的作者为美国麻省理工大学的劳伦斯·吉尔曼·罗伯茨(L. G. Roberts),他利用计算机程序从数字图像中提取出立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。在这一阶段,机器视觉技术隶属于模式识别领域,主要集中在二维图像的分析和识别上,最典型的应用包括文件里的字符识别、工件表面的处理、分析和解释等。
1973年,英国神经系统学家与心理学家大卫·马尔(DavidC.Marr)教授应邀在美国麻省理工大学的AI实验室领导一个研究小组,建立了一套视觉计算理论,使该领域的研究有了较为明确的体系,极大地推动了机器视觉研究的发展。令人感到惋惜的是,大卫·马尔教授因为身体原因很早便过世了,在他去世后,他带领的研究小组根据他在1973-1977年间进行的研究,整理出一本学术著作——《视觉》,这本专著的问世也标志着计算机视觉(机器视觉)成为一门独立学科,他也被誉为计算机视觉领域的“开山鼻祖”。
20世纪80年代至今,机器视觉领域飞速发展。硬件性能从早期集成电路计算机发展到GPU等高性能芯片,数据资源从早期少量手写数字数据到如今的海量图像数据。同时,机器视觉领域的算法也实现了持续优化,从基于规则的算法发展到基于深度学习的算法,而在应用领域方面,早期简单的字符识别已是过去式,如今已能够实现视觉导航与人机交互。由此可见,机器视觉在近40多年间,在多个方面都展现出了长足的进步。
伴随着近些年AI领域的崛起,深度学习在计算机视觉领域出现了崭新突破,标志着机器视觉进入了AI驱动的新时代。
复杂的机器视觉系统
与人眼类似,若想使机器拥有获取并处理信息的能力,也需要一套完整的体系,包括图像采集系统、视觉信息处理软件、显示器、处理器单元、机械控制软件,以及执行机构。
实际运行过程中,先由图像采集系统获取视觉(图像)信息,类似用照相机拍摄一张照片,然后将图像传给视觉信息处理软件,进行图像的分析与决策,而这些工作由处理器单元来执行操作,其就像机器的“大脑”,负责视觉算法运行,显示器则负责呈现视觉算法的运行结果。同样,也可以将决策结果传给机械控制软件,它会根据决策指导运动或操作,随后交由执行机构根据控制信息完成相应操作。
随着机器视觉领域的不断发展,领域内的研究内容也愈加广泛。机器视觉领域的研究人员常会选取其中部分细分领域进行深入研究,如图像分类、目标检测与识别、图像语义分割、目标跟踪、立体视觉与三维重建、视频理解与行为分析、医学影像分析、三维理解与视觉导航等。
和人类视觉相比,机器视觉拥有超强的信号感知能力和对海量数据的快速分析能力,系统稳定性高且不知疲倦,因而常被应用于不同领域。
在整个电磁波谱“大显身手”
尽管是一个只有几十年发展史的新兴学科,机器视觉却已经在图像处理领域彰显出庞大力量。目前,机器视觉系统处理的最主要的数据来源是电磁波谱成像,此外还包括声波、超声波等。在整个电磁波谱上,几乎所有的电磁波都可以成像,因而人们利用不同的传感器去形成数字图像数据,再利用图像处理或机器视觉技术完成工业生产、医疗诊断等科学探索的视觉任务。
在电磁波谱的最左端是波长最短、能量最强的伽马射线,它的图像主要应用于核医学和天文图像中。医院里,人们有时会见到正电子发射计算机断层显像设备(PET),其被用于骨骼病变的定位。检查时,将放射性同位素注射到人体内,这些同位素会发生衰变,同时发出伽马射线,再利用伽马射线检测仪收集放射线产生图像。如果人体存在病变或肿瘤,该部位吸收的放射性元素就会更多,放射出来的伽马射线更强,因此会在图像里呈现很亮的状态,医生就能够根据图像亮度的分布进行诊断。
与伽马射线相邻的是大家相对熟悉的X射线,其被广泛应用于医学、天文、工业图像等。医学检查中的CT——计算机X射线断层摄影仪器,便是运用了X射线,其穿透人体时,能使人体组织在荧屏上或胶片上形成影像。基于X射线的穿透性、荧光效应和感光效应,以及人体组织之间的密度和厚度的差别,医生能够根据图像的颜色进行诊断。以下图头部CT图像为例,骨骼密度最高,因此吸收的X射线最多,因而在图像上呈现白色;肌肉和液体密度中等,所以吸收中等强度的X射线而呈现灰色,如大脑组织与眼球;气体和脂肪密度最低,所以吸收的X射线最少,因而在图像中显现为黑色或深灰色。
此外,紫外波段、可见光、红外波段、微波波段、无线电波段均可被机器视觉系统处理。其中,紫外波段应用于工业检测、显微方法、生物成像、天文观测等;可见光广泛应用于显微方法、天文学、遥感、工业检测等领域;红外波段广泛应用于显微方法、天文学、遥感、工业等领域;微波图像的典型应用则是星载雷达;无线电波段则主要应用于医学和天文学,在医学领域,主要用于核磁共振图像(MRI),其与CT相比,图像更为清晰,对于软组织成像的效果更佳。
身边的机器视觉
除医学领域的影像学检查之外,生活中也处处存在着机器视觉的痕迹。旅游中拍摄风景照时,人们常会发现照片中的颜色相比肉眼看到的实景更为鲜艳,鲜花绿草更为明艳,灰蒙蒙的天空在照片中呈现出湛蓝的美,这些便是机器视觉中的图像增强技术在默默助力。
驾驶车辆进入停车场时,入口处常能快速进行车牌自动识别,进而准确掌握车辆进场时间,这一目标的实现也依赖于机器视觉。为实现车牌号码的精准识别,先由相机拍摄车辆照片再对车牌位置进行定位,随后对字符进行分割,比对样本库,从而对每个字符进行识别,最后便能准确输出结果。
识别景与物之余,机器视觉对于人脸识别的应用更是司空见惯。在火车进站、身份认证、人脸支付等领域已实现了诸多应用。目前,人脸识别系统主要分为两类技术路线,其一是二维人脸识别,即通过相机拍摄一幅可见光的二维照片,在图片上进行一些特征点的定位和提取,然后在数据库中进行比对,进而输出最相似的面容对应的姓名。这种方式的优势在于可以直接使用普通摄像头,成本较低,但比较容易被照片或视频“欺骗”。
另一种是三维人脸识别,需要使用三维结构光相机,其中的红外发射器能够投影出一些规则图案的点阵,再将其投影在人的脸部,而红外相机则对投影之后的人脸进行拍摄,进而得到点阵的图案。由于人脸凹凸不平,所以原本设计规则的点阵在拍摄之后会发生形变,通过比较前后两个图案的变形情况,便可得到人脸的三维模型,从而在后端的数据库进行模型比对并输出结果。相比二维人脸识别,这种识别方式准确度更高。
近来关注度较高的“文本生成图像”也与机器视觉密不可分。作为一个高度融合的跨学科领域,其被称为“生成式视觉”或“视觉内容生成”。“生成式视觉”旨在生成、编辑、增强图像,利用自然语言处理(NLP)技术理解文本提示词的含义,属于计算机视觉与NLP的学科交叉。
此外,交通领域的自动驾驶与辅助驾驶,航天遥感领域的地球人造卫星、气象观测、植被覆盖率监测、城市规划分析、地物变化监测、地震救援、数字地球,深空探测领域的探月工程等,都离不开机器视觉的“鼎力支持”。
近些年,人工智能领域飞速发展,将机器视觉从一个解决特定问题的“工具箱”,转变为一个具备强大“自动学习能力”的、能够解决通用问题的“智能平台”,不仅极大地提升了机器视觉的性能上限,也拓展了机器视觉的能力和应用边界,让人们深刻体会到科技不是冰冷的代码,而是人类探索未知的“眼睛”。
撰文:记者 廖迈伦
采访专家:袁丁,北京航空航天大学宇航学院教授