2016年,人工智能发展火热。作为人工智能一个重要分支的深度学习,也正在受到大家越来越多的关注。2016年是深度学习高速发展的一年。在这一年中,无论是工业界、学术界还是广大群众都投身到了深度学习的洪流之中。在工业界,谷歌(Google)、脸书(Facebook)、百度、阿里巴巴等一系列国内外大公司纷纷对外公开宣布了人工智能将作为他们下一个战略重心。在人才方面,继深度学习界泰斗吴恩达(Andrew Ng)加入百度、Yann LeCun加入脸书之后,各大IT公司开始哄抢学术界大牛。斯坦福大学教授、计算机视觉领域领军人物李飞飞(Feifei Li)于今年11月加入谷歌;卡内基梅隆大学教授、机器学习领域顶级人物Alex Smola于今年6月加入亚马逊(Amazon)。在工具方面,谷歌、脸书、百度、微软、亚马逊等公司相继开源了各自的深度学习框架,谁能引领人工智能的潮流将成为各大IT公司的下一个战场。
在学术界,深度学习继续推动着图像识别、视频分析、语音识别、语音合成、机器翻译、自然语言处理、人机博弈等各个领域的发展。在2016年中,深度学习概念已经不再局限在大学实验室或者顶级的IT公司里,随着AlphaGo战胜围棋世界冠军李世石、更多的无人驾驶车行驶在马路上、Prisma推出基于深度学习的图像风格转换应用、自动写作机器人的出现等等,大众越来越能切身的感受到人工智能所带来的改变。在下面的篇幅中,笔者将带大家一起回顾一下2016年深度学习领域都发生了哪些值得关注的大事。
3月:AlphaGo战胜李世石
在北京时间2016年3月15日的下午,谷歌开发的围棋深度学习系统AlphaGo以总比分4:1战胜了韩国棋手李世石,成为第一个在19×19棋盘上战胜人类围棋冠军的智能系统。AlphaGo战胜李世石把深度学习的概念从学术界推向了大众,并点燃了大众对于人工智能的巨大热情。虽然AlphaGo不是第一个战胜人类世界冠军的系统,但AlphaGo的胜利绝对是人工智能历史上的一座里程碑。
和1997年IBM的智能系统深蓝(deep blue)击败国际象棋世界冠军卡斯帕罗夫不同,完全依靠计算机的运算速度是几乎无法在19×19的围棋棋盘上战胜人类的。为了在完整的围棋棋盘上战胜人类世界冠军,AlphaGo需要使用更加智能的方式。深度学习技术为这种方式提供了可能。在AlphaGo的核心组成部分中,估值网络(Value Network)和走棋网络(Policy Network)都使用到了深度学习的技术,这也是AlphaGo背后真正的大脑。
虽然AlphaGo战胜李世石将人工智能推向了一个新的高度,但它的能力也不应该被过分放大,更不应该认为人工智能全面超越人类的时代即将来临。因为AlphaGo能够解决的仅仅只是在一个特定环境中定义好的问题,要将人工智能系统真正的应用到开放环境还需要研究人员更多的努力。这也将是AI未来发展的方向。
4月:TensorFlow发布分布式版本
虽然TensorFlow早在去年11月就正式开源,但在开源初期却受到了很大的争议。单机版TensorFlow的最大问题在于无法有效的利用海量数据,而这正是深度学习最大的优势之一。让我们以谷歌提出的Inception-v3模型为例。该模型在ImageNet数据集上可以达到95%的正确率。然而要在单机上把Inception-v3模型训练到78%的准确率需要接近半年的时间。如果要训练到95%的正确率则需要数年。这在生产环境中简直是无法忍受的。
为了解决这个问题,TensorFlow于今年4月发布了版本0.8.0。从该版本开始,TensorFlow开始支持分布式模型训练。分布式TensorFlow可以极大的加速神经网络的训练过程,上图展示了分布式TensorFlow的加速比率。从图中我们可以看到,通过100个GPU并行的方式,Inception-v3模型的训练速度可以加快65倍,这使得原来需要半年的训练过程可以在不到3天的时间内得到结果。这也标志着TensorFlow从一个玩具变成了真正能用的工具。在TensorFlow 0.8.0发布不久,DeepMind也宣布之后的所有系统都将基于TensorFlow来开发。
虽然TensorFlow已经支持分布式,但如果类比TensorFlow和Hadoop系统,那么TensorFlow相当于只实现了Hadoop系统中MapReduce计算框架的部分。要将TensorFlow真正应用到真实的生产环境仍然存在门槛。不过,将Kubernetes与TensorFlow结合,通过Kubernetes实现对TensorFlow任务的监控、管理,可以有效解决这些问题。
6月:Prisma 图像风格转换App上线
Prisma是一款通过深度学习技术改变图像风格的手机App。该应用上线之后,在短短一个星期时间内下载量超过了七百万次,且拥有超过一百万的活跃用户。该应用的推出标志着深度学习技术不仅是一门科学,它更可以被应用于艺术领域。下图展示了经过Prisma处理之后的图片效果。Prisma的出现将深度学习技术从高深的学术研究推到了大众的日常生活,让其更加广泛的被大众所了解。在该软件之后,更多图像、视频风格转换(比如像脸书推出的Caffe2Go)、自动音乐作曲等软件被陆续推出。
7月:谷歌智能数据中心
继AlphaGo之后,谷歌的DeepMind团队将深度学习的技术用在了智能数据中心上。通过增强学习(reinforcement learning),新的数据中心智能系统可以更好的配合机器内的风扇和数据中心的空调使得既可以保证所有机器的散热,又可以最大限度的降低能源的消耗。通过控制数据中心内120多种不同的设备,智能数据中心可以节省大约15%的能源开销,每年为谷歌节省数百万美元的成本。而且这只是深度学习在智能数据中心应用的开始,DeepMind团队还在尝试安装更多的传感器和控制器使得数据中心的能源利用率可以进一步提升。
8月:SyntaxNet发布40种语言的语法分析模型
在今年5月,谷歌发布了基于深度学习的自然语言理解(Natural Language Understanding, NLU)算法框架SyntaxNet,并且提供了训练好的英语语法分析器Parsey McParseface。在随机抽取的Penn Treebank新闻数据集上,该语法分析器可以达到超过94%的准确率。这样的正确率已经超过了以往所有的算法,并已经非常接近不同语言学家之间大约96%-97%的认同率。不同语言学家对同一句话可能有不同的分析,认同率刻画了他们之间彼此认同的概率有多高,这也大致给出了计算机可以达到的理论上限。不过这只是在文法非常规范的新闻数据集上,在谷歌从网页上整理得到的Web Treebank数据集上,Parsey McParseface可以达到大约90%的正确率。
在继Parsey McParseface之后,谷歌于今年8月又开源了40种其他语言的分析模型,并且同时支持文本分割(Text segmentation)和形态学分析(Morphological Analysis)功能。到目前为止,通过SyntaxNet开源的模型已经可以分析覆盖全球半数以上人口的母语,而且在大部分语言上,分析的准确率都是目前全球最高的。上图展示了使用SyntaxNet中文分析模型对中文句子的语法分析结果。深度学习将自然语言处理问题中最基础的语法分析问题又向前推近了一大步。将这些模型开源将大大加速自然语言处理领域的研究进展。
9月:谷歌上线基于深度学习的机器翻译
今年9月,谷歌正式发布了基于神经网络的机器翻译系统(Googel Neural Machine Translation system,GNMT)。该系统基于深度学习技术,可以巨幅提高翻译的准确率。与基于短语翻译的传统机器翻译算法相比,基于深度学习的翻译算法可以直接翻译一整句话,这可以大大简化翻译系统的设计,同时更高效的利用海量训练数据。根据谷歌的实验结果,在主要的语言上,基于深度学习的翻译算法可以将翻译结果的质量提高55%到85%。下表对比了不同算法翻译同一句话的结果。从这句话中,我们可以直观的看到深度学习算法带来的翻译质量的提高。
不同翻译算法的翻译效果对比表
从今年9月开始,在谷歌翻译产品中,所有从中文到英文的翻译请求都是由基于深度学习的翻译系统完成。谷歌使用的基于深度学习的翻译系统完全是通过其开源产品TensorFlow实现的,该系统目前每天处理了接近两千万次翻译请求。从中文翻译成英文只是谷歌翻译支持的一个语言对,之后谷歌还会将基于深度学习的翻译算法应用到更多的语言对上。
11月:DeepMind和暴风雪公司开始在星际争霸2上开展合作
在今年的3月,DeepMind团队开发的AlphaGo战胜人类围棋世界冠军不是人机博弈的终点,相反,这只是一个开始。DeepMind在今年11月正式开启了和暴风雪游戏公司的合作,将他们下一个目标定在挑战星际争霸2这款即时战略游戏上。相比围棋,星际争霸2是一个更加开放的环境,对于深度学习系统的设计难度又有指数级的提高。首先,虽然19×19的围棋棋盘可能有多种不同的状态,但星际争霸2的状态总数几乎是无限的,再加上这款游戏对即时性的要求,所以将对整个深度学习提出更高的要求。其次,星际争霸2是一个信息不对称的系统,玩家只能看到自己的地图,这要求深度学习系统对“局势”做出判断。
在BlizzCon 2016上,暴风雪公司宣布将开发一个对深度学习系统更加友好的API,从而正式开启与DeepMind团队的合作。上图的右侧展示了星际争霸2的正常视角,而左侧展示了提供给深度学习的视角,这样可以方便深度学习统更好的获取信息。相信在不远的将来,深度学习将被更多的应用到开放环境中。深度学习系统将在更多竞技运动中战胜人类的同时,也将在更多领域将人类从重复劳动中解放出来。
12月:DeepMind Lab开源
为了让深度学习系统能够自己学会如何解决复杂问题,继OpenAI开源了Universe项目之后,DeepMind于今年12月也开源了DeepMind Lab。DeepMind Lab是一个专门为人工智能研究设计的第一人称3D游戏平台。在这个游戏平台中,智能体(agent)需要完成类似收集水果、走迷宫、穿越有悬崖的通道、使用发射台在空间中移动等任务。如今DeepMind Lab已经成为DeepMind内部的一个主要研究平台。
展望2017年的深度学习
2017年,相信深度学习将在以下几个方面实现质的突破:
- 深度学习将从大学实验室和顶级IT公司走向大众,更多的公司将通过深度学习技术解决实际的问题。随着深度学习工具的开源以及技术的成熟,越来越多的个人和企业将享受到深度学习技术所带来的好处。
- 深度学习将覆盖更多的领域。从2012年深度学习突破了传统图像识别技术的瓶颈并取得了ILSCRC(ImageNet Large Scale Visual Recognition Challenge)比赛的冠军开始,深度学习能被应用到了越来越多的领域。在2017年中,笔者相信深度学习将继续突破传统技术的瓶颈,并将被应用到基因技术、个性化医疗、自媒体、公共安全、艺术、金融等各个领域中。
- 随着AlphaGo战胜李世石,深度学习系统在封闭环境下又取得了突破性进展。在2017年,相信深度学习系统将更多的尝试在开放环境下的应用。无论是无人车还是智能星际争霸2玩家或者是DeepMind Lab都将是深度学习在开放环境下的尝试。
作者信息:
郑泽宇,才云科技(Caicloud.io)联合创始人、首席大数据科学家。其团队成功开发全球首个成熟的分布式TensorFlow深度学习平台(TensorFlow as a Service),解决了分布式TensorFlow上手难、管理难、监控难、上线难等问题。基于此平台,才云大数据团队为安防、电商、金融、物流等多个行业提供有针对性的人工智能解决方案。归国创业之前,郑泽宇曾任美国谷歌高级工程师。从 2013 年加入谷歌,郑泽宇作为主要技术人员参与并领导了多个大数据项目。由他提出并主导的产品聚类项目用于衔接谷歌购物和谷歌知识图谱(Knowledge Graph)数据,使得知识卡片形式的广告逐步取代传统的产品列表广告,开启了谷歌购物广告在搜索页面投递的新纪元。他于2013年5月获得美国 Carnegie Mellon University(CMU)大学计算机硕士学位,期间在顶级国际学术会议上发表数篇学术论文,并获得西贝尔奖学金 (Siebel Scholarship)。