深度学习新选项:Kepler架构+AsKepler汇编器+Docker云
Google的AlphaGo战胜人类职业选手的背后,深度学习发挥了巨大的作用。这一成果也需要一个高性能计算平台(HPC)的支持,从Google、百度、Facebook、商汤科技等公司的经验来看,搭建这样的平台并非易事。但即使不是BAT,开发者也可以通过云计算来获得具有同等能力的资源。阿里云基于NVIDIA最新Kepler架构和AsKepler汇编器优化,并支持Docker部署的HPC服务,已经让一
Google的AlphaGo战胜人类职业选手的背后,深度学习发挥了巨大的作用。这一成果也需要一个高性能计算平台(HPC)的支持,从Google、百度、Facebook、商汤科技等公司的经验来看,搭建这样的平台并非易事。但即使不是BAT,开发者也可以通过云计算来获得具有同等能力的资源。阿里云基于NVIDIA最新Kepler架构和AsKepler汇编器优化,并支持Docker部署的HPC服务,已经让一些初创企业尝到甜头。
在上海云栖大会上,NVIDIA与阿里云宣布合作拓展深度学习市场,大力扶持包括深度学习、人工智能、机器人等深度学习创新企业,并就DT(数据技术)、云计算、HPC和深度学习的技术趋势及应用分享了他们的观点。
NVIDIA与阿里云双方的合作,主要包括4个方面的内容:
-
NVIDIA将向其用户推荐阿里云作为云上深度学习平台,促进深度学习新兴企业使用阿里云GPU云平台。
-
NVIDIA还将充分利用在高性能计算领域多年积累的丰富生态资源,与阿里云一道发展更多的HPC应用,并助力阿里云拓展包括教育与科研、政府、媒体和娱乐、医疗等行业的客户使用阿里云GPU云平台。
-
阿里云为NVIDIA CUDA培训提供学习和试验平台,NVIDIA将把阿里云GPU平台作为 CUDA培训的指定平台。
-
两家公司还将建立联合实验室,在深度学习、高性能计算、CDN增值服务应用等领域开展深入的研究和技术合作。并依托该实验室,共同支持重点客户HPC应用的移植和优化,为客户提供全方位的服务和支持。
阿里巴巴的发展速度得益于深度学习的应用,大约从2013年开始试水,到现在有好几百种深度学习的应用,集团内部广泛部署GPU支撑这些应用。深度学习领域GPU应用的火热,又促成了双方进一步的深度合作,输出的最好方式就是阿里云服务。阿里云HPC产品已经在2015年12月15日正式对外商用,提供专属的配备2个NVIDIA Tesla K40 GPU加速器的物理机。
在阿里云看来,未来所有行业都需要通过计算发挥数据的价值,云则让计算能够无处不在。NVIDIA全球副总裁Shanker Trivedi认为,现在的大数据都是以非结构数据为主,需要有一种加速的平台才能实现。HPC无疑是最好的平台,最需要HPC的应用,是深度学习、人工智能,但追求极致性能的HPC,涉及硬件的调度、编程工具的优化、数据的传输、应用的支持等等,云化成为服务并不容易。
Shanker Trivedi表示,HPC in Cloud确实有难度,但是现在已经变得相对容易,主要是有两点变化:
-
数据。如果数据量非常大,都搬到云上需要比较长的时间,还一个是数据安全怎么保证,目前这两方面在都有了比较好的解决办法。
-
应用程序。五年之前应用程序非常复杂,要在HPC in Cloud里面进行应用是非常麻烦的事情,但是通过过去的实验工作,现在应用程序也变得简单了很多,程序员也不需要做非常详细的代码。应用程序本身也更有利于HPC in Cloud的发展。
事实上,NVIDIA的GPU已经在AWS、Azure上服役(参考:在AWS上使用GPU实现分布式神经网络),Shanker Trivedi也期待阿里云在中国的规模和影响力,降低中国技术团队使用深度学习的门槛。
阿里云首席科学家章文嵩表示,阿里在高性能计算、深度学习的优化方面有非常丰富的经验,目前卷积计算的优化,阿里是做得最快的,其他的包括服务客户的过程、工程优化的经验,如对NVIDIA的选型,测试、上线、监控包括架构、性能优化,这些最终都会沉淀下来服务化。
积层计算的最快优化,是基于NVIDIA Kepler架构的GPU原生汇编器及CUDA占用计算器AsKepler,相比cuDNN V2快了60%,相对cuDNN V3则快了20%。这是阿里云HPC的核心技术优势之一,目前已经在阿里云HPC主页开放。据阿里云测算,假如有200万张图片需要学习,用一台双路E5-2650 v2的服务器训练需要16天时间,而如果用基于Kepler架构的阿里云双GPU物理机,仅需要1天就可完成。
Dress+(衣+)公司副总裁颜布江表示,创业公司对IT的需求倾向于轻资产模式的云服务,而基于最新的Kepler架构,以及阿里云对卷积计算的优化,衣+的深度学习训练任务得到大幅加速,这是Dress+从采用老GPU的国外云计算平台迁移到阿里云HPC的一个主要原因。
此外,GPU在物理机器上,提供Docker的实例,除了阿里云封装的实例,用户也可以做自己的Docker应用。章文嵩表示,采用Docker,客户的部署等各方面会更方便,同时给以阿里云大规模调度的能力。另一方面,NVIDIA也在其官方网站上给开发者提供如何在GPU上使用Docker的用户指南,Shanker Trivedi表示,Docker的资料下载排行仅次于CUDA和cuDNN。
当然AsKepler或者Docker只是冰山一角。未来,阿里云会把过去积累的更多经验变成SaaS服务对外输出。同时,阿里云和NVIDIA对双方在海外的合作也充满期待。
更多推荐
所有评论(0)