四川广泰科技有限公司

机器视觉也有人类视觉一样的缺陷吗?

发表时间:2024-05-20 09:24
人类和机器依靠神经网络进行对象和人脸识别。最新证据表明,这两种类型的视觉系统都有相同的缺陷。
深度卷积神经网络席卷了人工智能领域。事实上,这些机器视觉现在在许多领域都优于人类对手,例如面部识别、物体识别,甚至围棋游戏。
当然,具有讽刺意味的是,神经网络的设计框架在很大程度上模仿了人脑的结构。因此,机器视觉的深度神经网络的宏观结构与负责视觉的人脑非常相似。尽管人类大脑已经进化了数百万年,而另一个只存在了几十年,但两者的潜在机制非常相似。
这种高度相似性提出了一个有趣的问题:如果机器视觉的工作方式与人类视觉相似,它们是否受到类似的限制?当面临类似的视觉挑战时,机器视觉是否与人类视觉一致?
样本目标图片
伊朗德黑兰大学的赛义德·礼萨·赫拉德皮舍(Saeed Reza Kheradpisheh)和他的合作者揭示了这个问题的答案。他们使用相同的图像,并分别针对人类和机器进行了测试。研究发现,人类和机器确实存在同样的问题。
首先,我介绍一下背景。在人脑中,负责视觉的通路包含几层神经元,每一层神经元的作用是从图片中逐渐发现更多信息,例如运动、形状、颜色等。这些神经元相互连接并形成一个巨大的网络。
深度卷积神经网络也拥有类似的结构。它们也包含了许多层,每一层都包含了模拟神经元的网络回路,因此得名神经网络。
通过不断的研究,计算机科学家发现,当网络中的每个神经元层被用于从图片中逐渐发现新信息时,神经网络具有最佳的计算性能。当科学家研究单层神经元时,他们发现这些神经元层与大脑中的特定神经元有着惊人的相似之处。
但是,虽然人脑擅长物体识别,但它并不完美。例如,如果图像以某种方式失真,人类可能无法轻松识别图像中的对象。
例如,想象一张从侧面拍摄的汽车照片。已经开发了数千种图像变形方法。例如,您可以平移、拆分或放大或缩小图像中的对象。
除此之外,还有两种旋转方式。其一是“平面旋转”,比如说将照片中的汽车上下颠倒。
另一种是“深度旋转”(或立体旋转)。在这种情况下,您需要将汽车想象成一个 3D 对象。深度旋转汽车,您可能会看到汽车的前视图、后视图或四分之三侧视图,依此类推。
但是,对同一辆车识别两个图像的影响有多大,改变了不同的视角?显然,有些变形比其他变形更困难,但究竟是哪些变形呢?机器视觉是否面临同样的挑战?
为了找到答案,克莱德·皮彻(Clyde Picher)和她的合作者创建了四种不同类型物体的几张图像。随后,这些图像被用于测试人类通过深度神经网络识别物体的能力。
在人体测试过程中,随机照片将出现在计算机屏幕上,并显示约 12.5 毫秒。受试者被要求按下四个按钮之一,以指示他们刚刚看到的图像是汽车、船、摩托车或小动物。
共有 89 名受试者参与了实验,每位受试者观看了 960 张图像。研究人员根据每个受试者的反应速度和准确性测量了每个受试者辨别物体的能力。
同时,研究团队使用目前对象识别领域最强大的两个深度卷积网络模型进行相同的测试。这两个神经网络模型分别来自加拿大多伦多大学和英国牛津大学。
研究团队的最终结论非常有趣。“我们发现,人类视觉和深度卷积神经网络在大致相同的水平上识别不同的变形。目前,对于两者来说,深度旋转似乎是最具挑战性的变形方式,其次是缩放、平面旋转和图像的平面移动(最简单)。”
这项看似有趣的研究实际上具有极其重要的应用。简而言之,计算机科学家在未来创建用于测试机器视觉的图像数据库时需要更加谨慎。将来,他们将需要控制机器难以识别的因素。
多应用场合中,某些特殊图像的设计是一项至关重要的任务,比如航空管制识别,紧急出口标志设计,救生设备说明书设计等。同时,该研究还展示了使用卷积神经网络帮助研究人员研究人类认知的巨大潜力。在许多应用中,某些特殊图像的设计是一项至关重要的任务,例如空中交通管制识别、紧急出口标志设计、救生设备说明书设计等。
对这些图像进行手动评估既耗时又昂贵。但也许神经网络可以代替人类完成这些任务,或者至少过滤掉最糟糕的设计样本,从而大大减轻人类的负担。
此外,基于这项研究,研究人员可能能够开发出不会犯与人类相同的错误的机器视觉系统。这些系统可用于帮助人类在重要情况下做出决策,例如驾驶。
当然,这仅仅是个开始。神经网络的出现是以前由人类负责的任务的一场革命,这场革命在未来将继续加速。

往期回顾

摩尔纹也许真能拯救你的视觉检测

视觉成像技术能否助于研究人体视觉恢复

高光谱在肉质检测中的应用


微信图片_20220708093359.png