2016 年的杭州云栖大会上,当被问及最近一年对行业的最大感受时,阿里云总裁胡晓明曾不假思索地回答:「人工智能」。彼时,集阿里云人工智能大成的 ET 刚刚问世两个月,却已经成为杭州城市大脑项目中的「大脑」。
随后的半年时间里,阿里云的人工智能随着 ET 的快速发展而广泛布局,尤其是随着阿里巴巴发布「NASA 计划」之后,阿里云的人工智能步伐明显加快在完成了城市大脑、工业大脑、医疗大脑、环境大脑等一系列落地项目之后,阿里云在上海云栖峰会上推出一款新产品:视觉智能服务。
严格意义上说,相比于之前任何一个领域的「大脑」产品,这款视觉智能产品看起来只不过是一种基础能力,或者更准确地说,这只是 ET 的「视力」——它让机器可以看清楚图片、视频,也能读懂其中的含义。
但事实并非如此简单,尤其是在 2017 年这个特殊的时间节点。十年前,乔布斯带着 iPhone 重塑了智能手机行业,也拉开了移动互联网的大幕。十年后,那个曾经被 iPhone 改变的世界又重新走到了另一个十字路口,这一次「拯救世界」的主角之一就是影像。
影像正在「吃掉」世界
影像曾是构成消费主义的核心要素。在过去,无论是时装杂志的封面人物还是电视屏幕上的明星红人,这些或静态或动态的图像不断向世界各地传递着买买买的「福音」。而现在,无处不在的摄像头正在时刻记录着人类的方方面面。
比如卫星和无人机,过去几年,小卫星公司的出现大大降低了通过卫星进行拍摄的成本,Google 就收购了一家叫 Skybox Imaging 的小卫星公司,随后将其改名为 Terra Bella,其商业模式就是向商业机构售卖卫星图像;而民用无人机的出现和逐步普及,也开启无人机的一系列企业级、消费级的应用浪潮。
而监控摄像头、摄像机的平民化则更近一步。过去动辄上千甚至几万块的监控摄像头越来越多地进入家庭,与价格下降成反比的则是家庭监控摄像头的拍摄精度大幅提升,1080p 的视频早已普及。
另一方面,Gopro 这样的运动相机越来越流行,与之相对的一组数字:目前 Youtube 上每分钟上传的影片总长度为 400 小时。而不管是国内的直播还是国外的 Snapchat 、Facebook,都在鼓励大家拍摄更多的影像。
但这并非故事的全部。
当摄像头成为新的输入工具......
如果你仔细去看今年以来包括 Facebook、Google、苹果在内的开发者大会,你会发现一个共同点:手机摄像头正在成为新的输入工具。
支撑手机摄像头成为新输入工具的关键要素有两个:其一,手机拍照摄像已成为一种生活方式;其二,机器具备了处理与输出影像(图片或视频)的能力。
在机器学习尤其是深度学习的帮助下,计算机视觉在过去几年已经有了天翻地覆的变化,下面这幅图是英国知名投资人 David Kelnar 绘制的计算机视觉发展路径,在图像识别领域,机器已经超过人类:
而就在上月,阿里巴巴 iDST 视觉计算研究员华先胜的团队打破了机器视觉算法测评平台 KITTI上车辆检测的世界纪录,将其准确率提升到 90.46%,这项算法被认为是实现无人驾驶的关键技术,重点解决多视角,多姿态以及车辆遮挡等等。
此前,ET 在该平台的成绩也十分突出,在通用图片的识别方面,准确度达到 96% 以上,涵盖从水果、蔬菜、交通工具、到植物、动物等上千种物品。
上述的视觉智能领域的红利正在被释放。从 FB、Google、苹果以及此次阿里云的新产品,所有这些都是巨头们引领行业发展潮流的关键布局,也是赋能开发者、构建生态体系的重要一环。
以此次阿里云的视觉智能的两款产品为例,不管是图像识别还是人脸识别,都是历经阿里巴巴内部多个应用场景考验后的技术输出,这也意味着这些技术具备了应对绝大多数应用场景的能力。
比如,基于机器学习以及卷积神经网络,ET 的人脸识别技术已经实现了人脸检测、器官轮廓定位、1对1人脸认证和1对多人脸识别等多个功能,其在LFW上识别率超过99.5%。目前该人脸识别系统已经应用于机场通关等场所,可以极大提高安检人员工作效率。
而在阿里巴巴 iDST 视觉计算研究员华先胜看来,来自城市里的摄像头所「输入」的数据更具挑战性。
这些数据大概有几个特点:其一数据量巨大,城市里数以万计的摄像头,每天产生海量的影像数据;其二,数据计算的实时性,与应用在手机摄像头的 AR 计算或美颜计算不同,城市交通影像数据的计算时间是有要求的,任何的耽搁都会加剧城市拥堵,而哪怕是十几秒的优化都会带来整个城市交通运转的效率。
据了解,未来阿里云视觉识别服务还将陆续推出视频分析、视觉设计、工业诊断、医疗诊断等。
这也意味着,在不远的将来,不同领域的开发者可以在阿里云平台获取属于各自行业的影像解决方案,这也将更进一步释放出机器视觉智能的威力。
从社会层面上看,以杭州城市大脑将近一年的成绩为例,基于摄像头影像数据的智能调控,让局部区域交通的畅通度提高到了 11%;而站在商业层面,从交通进一步延伸,医疗、工业、服务业等等产业,都会在被基于摄像头的影像数据或视觉智能所改变。
写在最后
李开复曾在多个场合表示,中国海量的数据优势或成为人工智能弯道超车的重要变量。这其中,海量的影像数据(图像、视频)无论是社会价值还是商业价值,对中国的创业者来说都是一笔宝贵的资源。
如今,「数据就是新一代石油」的论断已成为行业共识,而在通往机器智能的路上,除了海量的(影像)数据,还需要更优的算法以及强大廉价的计算能力,站在 2017 年年中的起跑线上,中国创业者们几乎和硅谷同时起跑,以一款款应用、一个个解决方案播撒人工智能的种子,为他们摇旗呐喊的,则是包括 Google 、阿里云在内的云服务巨头们。