【洞察】人工智能改变世界智能识别人工视觉

2021-06-02 21:53:34

智嗨网 smarthey.com

探索智能生活

发现 | 探索 | 开拓

，，直接联入NCIC（美国国家犯罪信息中心）的主机，从自己的电脑里调出一小时前已经断气的匪徒影像，在NCIC数以亿计的犯罪数据信息里检索比对，不到一分钟，就查到了匪徒在数据库里的登记照和身份。这是1987年红遍全球的美国科幻大片《机械战警》（又称铁甲威龙）的经典一幕，想必也唤起了不少朋友久远的小时记忆，但是我们还是很抱歉地说，29年过去了，机械战警墨菲在计算机系统里进行复杂环境下快速人脸识别这一模式识别技术依然没有真正实现，或者说像科幻片那样达到随心所欲的境界——它们仍然还有很多需要大幅度改进的地方。

什么是模式识别？

与人脸识别类似的还有语音识别、气味识别、文字识别等技术，在人工智能领域，它们被统称为模式识别，指的是利用计算机进行模式信息处理，对图像、声音、文字等进行分类、描述与分析、理解。模式识别是实现人工智能的重要途径，一言蔽之就是利用计算机、传感器等完成对人类知觉能力的模仿，实现人工视觉、人工听觉、人工嗅觉、人工味觉等人工知觉。

人工知觉有什么用？

和心理学一样，不少人经常将知觉与感觉混为一谈，甚至不少人工智能的从业人员也不能免俗。人工感觉的核心在于传感器，是对物质物理量进行获取，并辨别衡量刺激量，例如光量、色彩、分子、声波等等，它只能反映物质的个别属性；而人工知觉的核心在于计算机，能够在传感器对物理量定性与定量的基础上，进行分析与综合活动，从而反映物质的整体属性。以《机械战警》中的人脸识别为例，机械战警墨菲通过高精度低照度的摄像机获取了匪徒的高分辨率高清图像，这一过程是通过摄像机精密的光学器件与光电传感器实现的人工感觉，而接下来墨菲要将这张高清图像与NCIC数据库里储存的人脸信息进行完全比对，有意思的是1987年的《机械战警》展示的逐步比对的方法，看上去有点人工智能经典控制思想——模糊控制的痕迹，最后将NCIC数据库里储存的匪徒登记照与犯罪现场的匪徒本尊照完美地比对出来，这就是人工知觉活动。可以不夸张地说人工感觉是人工知觉的基础，而人工知觉则是整个人工智能体系的基石，未来一切高级的人工智能活动必须建立在高度发达的人工知觉基础之上。

知觉的理解性与整体性，左图既可能理解为两个面对的人像，也可能理解为一个杯子；右图是对不连贯的线条与点能够理解为马。

人工知觉难在哪里？

模糊控制、人工神经网络等智能控制技术的发展，貌似看上去墨菲快速比对匪徒的人像照片是一件顺理成章的事，但是现实中依然存在难以逾越的鸿沟，这是因为人类的知觉本身就具备整体性、恒常性、选择性的特点，简单地来说，就是如何从身上的一个显著特征而识别匪徒本尊？

如何在岁月或者其他外部因素（例如新伤、乔装等）等干扰下识别匪徒？如何在强干扰的背景（例如人群众多的环境下）中识别匪徒？因此对人脸数据库LFW（Labeled Faces in the Wild）的人脸数据比对识别率依然是考验各大公司人工视知觉技术的重要指标，这个数据库号称拥有超过13000人的人脸图像及数据，凡是有勇气接受LFW挑战的人脸识别系统需要在指定时间内对一定样本量的不同环境下的人脸静态照片进行快速读取与识别，Facebook开发的DeepFace项目基于9 层的神经网络开发的人工视知觉系统的LFW成绩率先接近人类的识别水平；很快的，来自中国的新创企业Megvii（旷视科技）也提交学术论文声称基于他们基于8层神经网络的算法就能够实现97.3%的准确率，这个成绩在中国应该是最出色的，最近一次的消息是该公司的LFW准确率已达到了99.5%，这几乎是地球上最好的成绩，超过了Facebook和Google。

但是这还远远不够，年龄的变化、环境的噪音、以及其他各种外因依然让人工视知觉的发展看上去任重道远，LFW提供的样本图像环境与犯罪现场依然有着相当的差距，当然这里我们还没有谈到动态人像识别。

我们的人工知觉到哪个阶段了？

当然大数据、云计算、深度学习等新概念的崛起，让人工知觉看上去也挺美。实际上也的确有不少的公司紧锣密鼓地推出了自己的拳头产品，准备在人工智能领域最基础的市场占得最多的份额。

人脸识别。与人脸业务息息相关的Facebook雄心勃勃，冀希望于DeepFace项目，以待成熟后抢占“刷脸”社交高地；Google似乎走得更远，除了将杀手锏FaceNet项目和其传统的搜索大数据业务相结合实现对人脸的数据挖掘，还野心勃勃地想把人工视觉技术融入到其Google眼镜项目中，这正像《机械战警》系列电影里给观众呈现的那样——戴上眼镜，然后就知道眼前站的这个陌生家伙的一切资料——甚至他家养的那几条狗的照片；至于旷视科技和百度这两家中国公司也在打造自己的平台和团队，旷视科技主打的face++项目在该公司声称的高识别率算法的支持下，开始了商业化的征程，然而从其与合作伙伴——世纪佳缘、美图秀秀、魔漫相机等合作的项目来看，似乎更像一种成人玩具性质的服务，真正值得一提的是旷视科技与平安集团的合作，将人脸识别引入到金融领域才是这项技术最有前景的方向之一，然而金融领域对风险近乎苛求的标准也是人脸识别技术商用的难点，正如该公司的老总印奇所说：“如果用做LFW测试的那套办法用在这个环境（金融环境）中，误识率会高于2%，这就根本没办法用。”这样看上去，旷视科技针对平安金融开发的人脸+多动作识别系统并没有体现出其LFW高识别率太多的优越性。

语音识别。语音识别是人类涉足最早的模式识别技术，甚至比人工智能的概念还要早，早在1920年代出现的玩具狗"Radio Rex" 一听到它的名字时，就可以从座架上弹起来，20世纪50年代AT&T贝尔实验室开发出世界上第一个基于计算机技术的语音识别系统——Audry系统，它可以识别十个英文数字。随着声学、自然语言处理（NLP）、数字信号处理、计算机科学技术的发展，尤其是移动互联网的迅速普及，使得面向移动终端用户的语音识别技术获得了突破性的进展，最具有代表性的就是苹果公司的Siri——世界最早商业化的个人智能语音助理产品，不仅采用了强大的基于云计算的语音知识库，而且将人工智能、人机交互及智能搜索紧密结合起来，显然Siri是苹果公司染指智能家电乃至智能汽车领域的超强杀手锏；而死对头Google也不甘示弱，基于安卓平台的Google Now因为Google在智能搜索业务的优势似乎在这方面比Siri更胜一畴；苹果另一个对手微软厚积薄发地推出了小娜（Cortana），如果硬要说出优点的话，大概是在中国的本土化要优于Siri吧；说到本土化，最有发言权的应该是国产厂商在该领域的佼佼者科大讯飞，其基于OS与安卓平台的产品能够实现对粤语、四川话等方言的识别。然而民用级的语音传感器、背景噪音干扰、语义分析i难题、方言等依然让机器像机械战警墨菲那样无障碍听懂语言看起来遥不可及。

人工味嗅觉。现在让机器闻到、品尝气体和味道或许不再是不可思议的事，通过传感器阵列获得气液体分子的整体信息，并借助人工智能与模式识别技术对信息进行再处理，获得气液体组成成分与浓度信息，实现电子鼻、电子舌。老牌的法国生产商阿默思的FOX电子鼻与ASTREE E电子舌在食品、安全领域获得了较为广泛的应用，而年轻的创新型科技公司Aromyx开发的用于嗅觉和味觉的数字化平台——EssenceChip的系列芯片，通过模拟嗅觉和味觉分子结构来获取相应的生物化学信息，并据此判断对人们的影响，让人工味嗅觉从感觉往知觉更大大地迈进了一步。

事实上，用上个世纪80年代科幻片的眼光来审视我们今天的人工知觉，似乎还相当的幼稚，还难以做到尝得“津津有味”、看得“察言观色”、听得“善解人意”，更不用说整合成一个相对系统的知觉体系，但是起码雪球开始滚起来，或许我们要做的，就是耐心等待。正如Siri之父Adam Cheyer说的：“它就是我的孩子，他还在成长”。

如果你喜欢这篇文章，请记得顺手转发给你的小伙伴呦！

看完点个 赞！赞！赞！

智嗨 ∣探索智能生活！

长按，识别二维码，加关注

合作|投稿

smarthey@donews.com

电话：18514711094