北京白癜风医院最好是哪家 http://wapyyk.39.net/bj/zhuanke/89ac7.html这是方舟的第8篇原创文章大家好,我是方舟。今天想聊一聊CV类产品的另一个分支-手机拍照。计算机视觉(CV)是AI产业中最炙手可热的一个领域。从落地成熟度角度来看,目前计算机视觉能够有效形成商业闭环的有两大分支,一块是视频监控类的CV项目,主要是toB或者toG领域,包括安防、社区、交通等行业,之前笔者分享的《计算机视觉在产品设计中的应用(智慧交通)》就属于这一大类。同时,随着AI商业闭环的形成,也倒逼了相关的人脸识别、车辆识别、违法行为识别等标准化算法精度方面迅速提高,现在各算法厂家或设备厂家的竞争重心已经从单纯的算法能力PK转向了产品化PK。另一块,就是今天要讲的手机拍照,由于toC的用户对产品交互的有更敏锐且苛刻的感知,因此计算机视觉在手机拍照领域的应用也呈现出更新颖、更丰富、更有活力的态势。那么今天我就从这个切入点,浅谈一下计算机视觉在手机拍照领域的应用。01归根溯源:计算机视觉的底层逻辑评选人类身上最精巧的器官,那么眼睛一定会在候选名单之中。视觉是我们感知美的重要方式之一,直接而具体。那么机器有视觉吗?有的。计算机的视觉器官主要是摄像头,各种各样的摄像头,包括但不限于道路卡口摄像头、电脑摄像头、手机摄像头等等,如同我们的眼睛一样可以接受图像信号。但是如何处理与分析这些信号并产生出“认知与决策”,才是这项技术的奥秘所在。图像在计算机的世界里通常被表示为一系列网格状的像素矩阵,这一表示形式是大多数图像处理技术的基础。我们可以通过坐标位置来确定某个像素点的位置,并通过更改该点的像素的值来更改图像的显示。图像的色彩空间常用RGB表示,即Red,Green,Blue,空间中的RGB分布取值范围都在[0,],呈均匀分布。同人类理解世界一样,对于计算机来说同样有“知识的表示形式决定了学习的难易程度”。为了更好的表示图像信息,还有两种常用的颜色空间表示方法,一是HSV:色调Hue,饱和度Saturation,亮度Value。这个空间中的颜色分布呈现为一个圆柱体。由于色调通道在不同的光照条件下变化范围不大,而亮度通道则在不同的光照条件下变化明显,因此可以通过调整色调通道的值来更好的选择目标区域而避免光照条件的影响。二是HLS:色调Hue,亮度Lightness,饱和度Saturation,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。由于在大部分计算机视觉应用中,光照条件对于算法的识别能力是有影响的,后两种颜色空间表示方法考虑了亮度信息,因此可以用于图像的光照条件的分辨。图像处理主要是通过图像增强、图像恢复使得图像更加清晰,从而方便人们进一步观察和分析。例如20世纪50年代末,卫星航拍的图像往往不够清晰,这时候人们通过计算机的图像增强功能来获取更加清晰的图像,从而帮助为专家分析提供便利。而模式识别主要是指识别出图像中某些特定的“概念”,例如找出图片中的一只猫,或在一张充满汉字的图片上找到某个特定的汉字。如何能在一个基于数学和逻辑的机器上形成某种“概念”,成为了模式识别和机器学习研究的重点与突破性的技术。模式识别在20世纪60年代初开始就被广泛的认可,例如当时就已经具有了能够识别图片中的英文字符的识别程序,虽然识别效果和现代的技术不可同日而语,但还是能够减少一部分人工的工作量(人们不再需要将字符一个个手动输入计算机)。尽管当时计算机视觉在二维的图像增强和模式识别这两个领域已有广泛应用,但人们并不满足于此。我们人类看到的世界是一个三维的世界,因此人们也希望计算机也能够看见一个三维的世界?年罗伯特的研究是计算机视觉研究从二维转向三维的标志。通过一遍遍地让计算机观察圆锥、圆球、立方体等模型的照片,以及一遍遍地调试程序,罗伯特成功地让计算机识别出了二维图像中的三维结构和空间布局。这使得从二维图像中提取三维信息成为了可能。从此,计算机视觉得到了突飞猛进的发展。模式识别的从一个小点,逐步发展成了多样化的分支,这也是计算机视觉在手机拍照领域如此丰富的底层源头。沿着模式识别这条主线,在充分吸纳深度学习、强化学习、迁移学习乃至知识图谱等算法分支后,手机领域的计算机视觉形成了完整的立体矩阵,强大而富有想象力。现在我们拿起手机拍照时,手机不仅能够快速且准确地在图片中识别出人脸的位置,并且能够识别出人脸的表情,在微笑时自动拍照(微笑快门)。此外,相信女生们对于手机拍照中的美颜功能并不陌生,在自拍之后要用美颜把自己P得美美的。而现在的手机能够准确识别出五官的位置,在拍照时就有针对性地对眼睛、鼻子、皮肤进行相应地美颜,从而省去了人们在拍照之后还要花时间去处理的烦恼。年,微软推出了一个网站How-old.net,在这个网站一经推出就刷爆了朋友圈和微博,这个网站可以对人们上传的图片中的人脸进行识别,并根据相应算法预测出其年龄,虽然有时候结果不够准确,但完全不影响人们乐此不疲地上传照片。在我们去乘坐地铁,火车或飞机时,我们的行李从安检仪中快速滑过时,此时计算机就能根据X光图像将行李箱中的物品进行识别,并通过不同的颜色清晰地呈现在安检员的面前。年诺贝尔医学生理学奖颁发给了神经生物学家大卫·休伯尔(DavidHubel)和托斯坦·维厄瑟尔(TorstenN.Wiesel)。他们发现了视觉系统信息处理机制,证明大脑的可视皮层是分级的,大脑的工作过程是一个不断迭代、不断抽象的过程。视网膜在得到原始信息后,首先经由区域V1初步处理得到边缘和方向特征信息,其次经由区域V2的进一步抽象得到轮廓和形状特征信息,如此迭代地经由更多更高层的抽象最后得到更为精细的分类。像素是没有抽象意义的,但人脑可以把这些像素连接成边缘,边缘相对像素来说就变成了比较抽象的概念;边缘进而形成球形,球形然后到气球,又是一个抽象的过程,大脑最终就知道看到的是一个气球。这个生理学的发现,促进了计算机视觉的发展。计算机专家仿照人类大脑由低层到高层逐层迭代、抽象的视觉信息处理机理,建立深度网络模型。深度网络每层代表可视皮层的区域,深度网络每层上的节点代表可视皮层区域上的神经元,信息由左向右传播,其低层的输出为高层的输入,逐层迭代进行传播。逐层迭代的深度网络模型在年,科学家开始将人工神经网络与计算机视觉相结合,让计算机能够自主学习和理解所看到的内容。他们让计算机观看了上亿张图片,并且告诉计算机每张图片中每个物品的名称(这是一项巨大的工程,个国家和地区的约5万名工作者耗费了近2年时间才完成这一工作)。计算机观看并学习了如此大量的图片之后,能够准确地分析出一张新的照片上的大部分物体,并且能够简单地描述一张图片。对于计算机视觉研究来说,这无疑是十分重大的突破。计算机视觉中最常使用卷积神经网络(CNN),进行图像识别研究。卷积是在连续空间做积分计算,然后在离散空间内求和的过程。实际上在计算机视觉里面,可以把卷积当做一个抽象的过程,就是把小区域内的信息统计抽象出来。比如,对于一张爱因斯坦的照片,可以学习多个不同的卷积和函数,然后对这个区域进行统计。卷基层卷积神经网络学习好的卷积和会对输入图像进行扫描,每一个卷积和会生成一个扫描的响应图(即featuremap)。从一个最开始的输入图像(RGB三个通道)可以得到个通道的响应图,即个卷积和,每个卷积和代表一种统计抽象的方式。池化层在卷积神经网络中,除了卷积层,还有一种叫池化的操作。池化操作就是一个对一个小区域内求平均值或者求最大值的统计操作。在内积结果上取每一局部块的最大值就是最大池化层的操作,由卷积层得出的每一个响应图经过一个求最大的一个池化层,会得到比原来响应图更小的响应图。卷积神经网络通过卷积层和池化层实现了图片的特征提取。以上,就是手机摄像头去实现计算机视觉的底层基础,这是一切表象功能能够有效展开的前提。硅谷钢铁侠埃隆马斯克曾说过,当他去思考一个行业的时候,首先需要弄懂的是复杂背后的底层基础原理,也就是所谓的“思维模型第一原理”。因此在搞懂手机中的计算机视觉之前,了解它的底层原理,是非常有必要的。02手机进化:从传感器到算法摄影在智能手机时代,摄影已经发生了变化。不仅人们的拍照姿势变了,手机摄像机捕获的光线的整个过程也发生了翻天覆地的变化。相机不再只是一个镜头和一个传感器,还是一系列算法的体现,它们可以以最快的速度处理图像以获得最好的摄影效果。手机摄影已经进化成为算法摄影。人工智能机器学习的不断进步将带来更多不同的功能,技术更新迭代的速度之快,或许很快就会让今天的手机摄影效果看起来过时了。比如谷歌Pixel3和iPhoneX的手机拍照功能发生的一些新变化。谷歌可以利用机器学习在弱光条件下捕捉更多细节,可以让夜景拍摄效果看起来像白天拍出来的效果一样。从年推出iPhoneX开始,苹果开始在手机中添加了“bokeh”,巧妙地模糊了焦点之外的元素。这种效果并不是像传统摄影那样依靠镜头本身,而是通过对捕捉到图像进行像素计算调整来实现的。年到年,摄影的突破性进展很有可能来自于改善处理图像的视角。这很有可能会纠正智能手机摄影中固有的失真,这些失真使得智能手机在数码单反(DSLR)相机照片面前显得相形见绌。卷积神经网络(CNN)是如何通过一张图片重建现实的。来自查尔默斯理工大学的TorstenSattler,慕尼黑理工大学的QunjieZhou和LauraLeal-Taixe,苏黎世理工学院和微软的MarcPollefeys所著的《理解基于卷积神经网络的绝对相机姿态回归的局限性》。事实上,它们可以达到接近于“移轴摄影”相机的效果。在移轴摄影相机中,镜头的角度是为了弥补一个人站在相机前的角度,从而纠正由于个人与场景之间的角度造成的图像失真。数码单反用户可以很容易买到各种可拆卸镜头,实现移轴摄影功能。一般的手机相机镜头筒非常小,捕捉到的所有图像都是扭曲的。对应现实世界,手机拍到的图像形状几乎都有偏差。大多数人可能不会注意到或在意这一点,因为他们已经习惯了Instagram上的自拍。但如果能改善这些畸变就好了。如果可以,这将成为谷歌、苹果等公司下一轮智能手机的卖点。iPhone和其他相机将越来越多地搭载带有3D传感器的后置摄像头。这些传感器由鲁门特姆控股(LumentumHoldings)和其他芯片供应商等公司制造,通过计算发出光束从物体上反射回来的时间来测量手机周围环境的深度。“飞行时间法”(time-of-flight)等技术可以让手机详细测量周围环境的三维结构。这些传感器利用基于近年来为解二维图像和现实世界之间的关系而进行的大量统计工作。谷歌Pixel3智能手机上的“夜视”功能人们做了大量的统计工作来实现移轴摄影镜头的物理特性,包括带有或没有特殊摄像装置的方案。例如,一项名为“随机样本一致性”(RANSAC)的技术可以追溯到年,专门用于寻找三维世界中的地标,这些地标可以映射到二维图像平面上的点,以了解二维图像与三维现实之间的关系。使用这种技术,我们可以更好地理解二维表示如何与现实世界相对应。年,佛罗伦萨大学(UniversityofFlorence)的一组研究人员在RANSAC的基础上,通过对相机拍摄的照片进行逆向推理,推断出了平移变焦相机的结构。他们能够通过软件来分析不同位置的相机的失真程度,从而控制相机的制动器调整至最佳状态。他们可以用它来制作视频,而不仅是静止的图像。年,德国埃尔兰根-纽伦堡大学(UniversityofErlangen-Nurnberg)和伍兹霍尔海洋学研究所(WoodsHoleOceanographicInstitution)的研究人员公布了一个名为CameraTransform的Python库,它可以让人们通过对拍摄的图像进行逆向计算,来估算物体的真实尺寸。四角观察:研究人员创建的一种神经网络,用于推断图片中被遮挡的物体,由编码-解码器和对抗性网络组成。由慕尼黑工业大学的HelisaDhamo、KeisukeTateno、IroLaina、NassirNavab和FedericoTombari提供,佳能公司提供支持。去年,德国慕尼黑工业大学(TechnicalUniversityofMunich)和佳能公司(Canon,Inc.)的研究人员表示,用一张图片就可以推断出被另一个物体遮挡的场景中有什么。它被称为“分层深度图像”,可以通过从照片中删除一个对象来创建新的场景,显示相机从未见过的背景,但这是通过图像计算得到的。该方法使用了许多神经网络应用中常见的编码-解码器方法来估计场景的深度,以及“生成对抗网络”(GAN)来构造场景中在拍摄照片时从未实际出现在视野中的部分。各种新的研究在不断涌现,并将在下一代配备3D传感器的智能手机相机上呈现井喷之势。这些研究将会带来惊人的成果。在未来,至少用智能手机拍摄的人像不再会出现奇怪的面部扭曲。通过平衡镜头上的线条畸变创建出平行线,我们可能会得到超分辨率的建筑图片。智能手机行业将能够在与数码单反市场的对战中再次胜出,因为手机将生产出大量精确而逼真的照片。当然,智能手机摄影的长期趋势是远离现实主义,达到在计算摄影之前不可能实现的更加惊艳的效果。因此,我们可能会看到3D传感技术的应用趋向于超现实主义未来,随着AI在手机摄影领域的大量应用,传感器与算法将更加深入的融合,在成本、空间、效果、省电等维度不断的碰撞发酵,从优化图片质量和提升摄影功能两大方向创造更多可能性,也许还会产生新的艺术形式。03未来可能:AI视觉给手机带来的三大新方向手机是承载人类数字化生活于工作最重要的设备,更是近20年来对人类社会改变最大的工具。移动互联网的蓬勃发展,让手机从单纯的通信工具成为人们生活和工作的入口。未来手机不仅将成为我们身体的延伸,更将帮助人们简化生活、分担工作,成为人类的“个人智能助理”。经过十年的黄金发展期,年智能手机行业遇到了发展的重要转折点。根据IDC的统计数据显示,年全球智能手机出货量为14.7亿台,同比下降0.3%。首次出现同比下跌的情况。而中国市场的变化趋势更为明显。年,中国智能手机出货量为4.4亿部,同比下降4.9%。这意味着传统的智能手机市场已经呈现饱和,手机厂商必须从拼销量、拼价格向拼品质、拼体验转型。据报告显示,从年开始,越来越多的手机厂商意识到了AI给智能手机行业带来的价值,纷纷推出了“AI手机”,年主流手机厂商更是在各自的旗舰机型中全面引入AI技术,甚至搭载AI芯片的手机正在成为市场的主流。不过,目前的“AI+手机”还处在较为初级的阶段,很多的功能应用还具有局限性,只是在部分特定场景下才能发挥作用,距离真正的AI手机普及还有不小的技术门槛。旷视科技副总裁谢忆楠对目前的“AI手机”发表了看法,他认为,现在很多的手机还不能叫“AI手机”,更多应该称作“AICamera”。现在AI应用提升较多的是在摄像头上,无论是拍照、解锁,还是认知、优化、分析等都是基于这个“AICamera”。最浅层的AICamera即人脸解锁,再往上则可能是AI的智能优化。视觉应用是手机AI应用中最主要的诉求。在年《IDCConsumercape°》调研中,当你购买手机时,影响你采购决定的七个最重要的因素,73%的用户会考虑电池续航时间,51%的用户考虑拍照效果。从图中我们可以明显地看到,目前主流的手机应用大多与视觉应用相关(蓝色柱状图),可以说,提升视觉技术在当前是改善用户体验的最直接和最有效的手段。目前,AI手机基于计算机视觉开发的人脸解锁、人像美颜功能在手机应用中渗透率分别高达75%与90%。与此同时,AI视觉需求的日益强烈对产业链因此提出了更高的要求,应用、算法、解决方案、硬件将会环环相扣、缺一不可。想要给用户带来超预期的视觉体验,需要产业链的协同发展。视觉技术的推陈出新与产业链的发展紧密相连。IDC将计算机视觉技术对安手机的影响分为四个层面,每一个层面的创新既相对独立又相互促进。利用新器件、新算法打造新方案探索新应用,改善用户体验,提升用户粘性是AI手机快速普及的重要助推力。总的来说,计算机视觉技术在手机种的应用主要可以分为三大方向:识别与认证、AI摄影、3D感知。1、识别与认证。通过高效的人脸识别算法,手机可以实现毫秒级的人脸解锁和金融级的人脸支付。目前,这项技术在手机上已经广泛应用于互联网金融风控、共享出行司机和乘客验证、社保等行业,用于甄别欺诈行为。2、AI摄影。人工智能可以智能分析出用户的年龄、肤色、体型等特征,通过人脸检测、关键点检测、场景识别等AI算法对画质进行精准提升,让成像更加自然,为用户带来更完美的体验。3、3D感知全栈方案。IDC认为3D感知将实现计算机视觉在手机领域的重大突破,为手机应用打开了更为广阔的空间,例如AR游戏虚拟、试穿等应用。但是,目前基于3D的感知应用还不普及。以上这些应用都离不开摄像头上的解决方案,目前市场上的方案有双摄、三摄、深摄三类方案。目前市场上的双摄方案主要分为三种:1、景深方案。一般是采用两枚像素不同的传感器来进行拍摄,主摄像头像素极高,负责拍摄整体画面副摄像头像素稍低,负责记录景深信息。主要卖点是突出主体,背景虚化。2、黑白+彩色方案。利用两枚后置摄像头在结构上的细微差异,经算法融合呈现优于传统单枚摄像头的成像效果,可以有效提高像素细节相近,颜色的过度也会更加自然。整体在层次感上有着不错的提升,它的最大卖点是成像更加清晰,适应夜拍。3、定焦双摄方案(广角+长焦方案)。在不同的光照条件下,手机能够自主选择合适的摄像头来进行自拍。在光线充足的场景中选用长焦镜头进行拍摄,并且能实现两倍无损变焦。当光线不足时则启用广角镜头为主摄像头,能更好地保证亮度,主要卖点是变焦拍摄更容易。三摄方案也主要分为三种:1、在彩色镜头+黑白镜头基础上,加长焦镜头的组合。拥有高倍无损变焦能力,能够在低光性能变焦高分辨率,景深,虚化等方面提供更优质的体验。2、在彩色镜头+黑白镜头基础上,加入一颗COMS辅助成像,能够带来更好的宽容度。3、在广角+长焦的方案的基础上,加入一颗鱼眼镜头,实现超级变焦功能,提供更多视角。总之,三摄可以同时具备光学变焦及黑白镜头无损远摄的同时,还能够利用黑白镜头的补光优势保证更出色的成像质量,这就为人像模式等需要模拟大光圈背景虚化的场景提供了更多可能性。弥补面部曝光不足的同时,多一颗摄像头就有可能得到更全面的景深数据,从而让背景虚化更加完美。深摄摄像头按技术分类可以分为以下三类:1、主流技术。2、双目结构光。3、飞行时间算法(TOF)。随着人工智能视觉需求的日益强烈,AI视觉解决方案整合将加速,对产业链提出了更高的要求。首先,随着AI应用场景的不断扩展,视觉应用需求更加强烈,但是过于复杂的产业链将延长开发周期,抑制性应用的快速商用,同时,过高的门槛将大大提高应用的成本。其次,由于手机设计的特殊要求,如轻薄,省电,产品迭代快,使用环境多样化等。要求产业链可以根据手机厂商需求,提供端到端的一站式解决方案。可以高效定制于快速迭代视觉技术的产业整合势在必行。计算机视觉技术封装将成为手机产业链的关键环节,可见计算机视觉技术在手机领域的应用正在趋于成熟,但就技术本身来讲还有太多应用场景尚未被开发出来。当前市场